--- title: "精确去重" type: concept tags: [] --- ## 定义 通过哈希算法(如 MD5、SHA256)比对文件内容,识别并处理完全相同文件的技术手段。 ## 应用场景 - 照片整理:识别同一照片的多个备份副本 - 文件清理:移除重复下载的文件 - 数据迁移:避免重复数据占用存储空间 ## 技术要点 - **哈希算法选择**:MD5 速度快但有碰撞风险,SHA256 更安全但速度稍慢 - **增量计算**:首次计算后缓存哈希值,后续只计算新文件 - **存储考虑**:大文件哈希计算耗时长,需考虑进度保存 ## 与相关概念的关系 - [[小文件清理]] ← 常与精确去重配合使用,先清理低价值文件再进行去重 - [[批次任务]] ← 大规模去重任务需要分批执行