内容哈希是一种通过计算文档内容块的 SHA-256 哈希值来唯一标识内容的技术。当文档内容未变化时,哈希值保持不变,系统据此跳过已索引内容,仅处理新增或变更的内容块,从而实现增量索引,避免重复 Embedding API 调用。
文档内容块 → SHA-256 哈希 → 内容指纹 ↓ 内容指纹 vs 已索引指纹 → 比对结果: - 完全匹配 → 跳过(已存在,无需重新嵌入) - 变化/新增 → 执行 Embedding 并存储向量
"Smart dedup saves money. Each chunk is identified by a SHA-256 content hash. Re-running index only embeds new or changed content, so you can run it as often as you like without wasting embedding API calls." — memsearch
index