Files
nexus/wiki/concepts/精确去重.md
2026-04-17 23:18:07 +08:00

22 lines
805 B
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "精确去重"
type: concept
tags: []
---
## 定义
通过哈希算法(如 MD5、SHA256比对文件内容识别并处理完全相同文件的技术手段。
## 应用场景
- 照片整理:识别同一照片的多个备份副本
- 文件清理:移除重复下载的文件
- 数据迁移:避免重复数据占用存储空间
## 技术要点
- **哈希算法选择**MD5 速度快但有碰撞风险SHA256 更安全但速度稍慢
- **增量计算**:首次计算后缓存哈希值,后续只计算新文件
- **存储考虑**:大文件哈希计算耗时长,需考虑进度保存
## 与相关概念的关系
- [[小文件清理]] ← 常与精确去重配合使用,先清理低价值文件再进行去重
- [[批次任务]] ← 大规模去重任务需要分批执行