805 B
805 B
title, type, tags
| title | type | tags |
|---|---|---|
| 精确去重 | concept |
定义
通过哈希算法(如 MD5、SHA256)比对文件内容,识别并处理完全相同文件的技术手段。
应用场景
- 照片整理:识别同一照片的多个备份副本
- 文件清理:移除重复下载的文件
- 数据迁移:避免重复数据占用存储空间
技术要点
- 哈希算法选择:MD5 速度快但有碰撞风险,SHA256 更安全但速度稍慢
- 增量计算:首次计算后缓存哈希值,后续只计算新文件
- 存储考虑:大文件哈希计算耗时长,需考虑进度保存