Files
nexus/wiki/concepts/精确去重.md
2026-04-17 23:18:07 +08:00

805 B
Raw Blame History

title, type, tags
title type tags
精确去重 concept

定义

通过哈希算法(如 MD5、SHA256比对文件内容识别并处理完全相同文件的技术手段。

应用场景

  • 照片整理:识别同一照片的多个备份副本
  • 文件清理:移除重复下载的文件
  • 数据迁移:避免重复数据占用存储空间

技术要点

  • 哈希算法选择MD5 速度快但有碰撞风险SHA256 更安全但速度稍慢
  • 增量计算:首次计算后缓存哈希值,后续只计算新文件
  • 存储考虑:大文件哈希计算耗时长,需考虑进度保存

与相关概念的关系

  • 小文件清理 ← 常与精确去重配合使用,先清理低价值文件再进行去重
  • 批次任务 ← 大规模去重任务需要分批执行