22 lines
805 B
Markdown
22 lines
805 B
Markdown
---
|
||
title: "精确去重"
|
||
type: concept
|
||
tags: []
|
||
---
|
||
|
||
## 定义
|
||
通过哈希算法(如 MD5、SHA256)比对文件内容,识别并处理完全相同文件的技术手段。
|
||
|
||
## 应用场景
|
||
- 照片整理:识别同一照片的多个备份副本
|
||
- 文件清理:移除重复下载的文件
|
||
- 数据迁移:避免重复数据占用存储空间
|
||
|
||
## 技术要点
|
||
- **哈希算法选择**:MD5 速度快但有碰撞风险,SHA256 更安全但速度稍慢
|
||
- **增量计算**:首次计算后缓存哈希值,后续只计算新文件
|
||
- **存储考虑**:大文件哈希计算耗时长,需考虑进度保存
|
||
|
||
## 与相关概念的关系
|
||
- [[小文件清理]] ← 常与精确去重配合使用,先清理低价值文件再进行去重
|
||
- [[批次任务]] ← 大规模去重任务需要分批执行 |