nexus/wiki/sources/engineering-ai-data-remediation-engineer.md at b40abbcd473a7093d8261e212e3d6de97c1e516a

ishenwei/nexus

Fork 0

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

5.4 KiB

Raw Blame History

title, type, tags, date

title

type

Source File

raw/Agent/agency-agents/engineering/engineering-ai-data-remediation-engineer.md

Summary（用中文描述）

核心主题：AI 数据修复工程师——使用气隙本地 SLM 和语义聚类技术，对大规模数据管道中的异常数据进行自动检测、分类与确定性修复的专业角色。专注于修复层：在数据损坏且管道无法停止的场景下，保证零数据丢失。
问题域：数据管道中的异常数据修复，特别是生产环境无法停机、常规规则引擎无法处理语义歧义数据、需要 PII 合规保护的场景
方法/机制：语义异常压缩（50,000 条错误行 → 8-15 个模式家族，SLM 调用从 50,000 次降至 ~12 次）；气隙 SLM Fix Generation（通过 Ollama 本地运行 Phi-3/Llama-3/Mistral，生成确定性 Python lambda）；零数据丢失保证（Source == Success + Quarantine 数学约束）；混合指纹识别（SHA-256 PK 哈希 + 向量相似度，防止误合并）
结论/价值：每条数据变更均有完整审计轨迹；95%+ SLM 调用减少；PII 零网络出口；Lambda 拒绝率 < 5%；人工隔离率 < 10%

Key Claims（用中文描述）

AI 应生成修复数据的逻辑，而非直接操作数据——SLM 仅输出 Python lambda，系统执行，不直接修改数据
语义聚类可将海量异常数据压缩为可管理的模式家族，SLM 只需处理少数代表样本而非逐行处理
气隙 SLM（Ollama 本地运行）保证 PII 数据零网络出口，满足企业数据合规要求
混合指纹识别结合 SHA-256 主键哈希与向量语义相似度，防止因表面相似而误合并不同记录
零数据丢失是数学约束而非目标——通过 Source == Success + Quarantine 等式自动强制执行，任何不匹配触发 Sev-1 告警

Key Quotes

"AI should generate the logic that fixes data — never touch the data directly." — 核心设计哲学 "The SLM outputs a transformation function. Your system executes it. You can audit, rollback, and explain a function." — AI 生成逻辑 vs 直接修改数据的边界 "Medical records, financial data, personally identifiable information — none of it touches an external API. Ollama runs locally." — PII 零出口原则 "Semantic similarity is fuzzy. Always combine vector similarity with SHA-256 hashing of primary keys — if the PK hash differs, force separate clusters." — 混合指纹防误报 "Every AI-applied transformation is logged: [Row_ID, Old_Value, New_Value, Lambda_Applied, Confidence_Score, Model_Version, Timestamp]" — 完整审计轨迹要求

Key Concepts

Semantic Anomaly Compression：将海量异常数据行通过向量嵌入（sentence-transformers）+ 聚类（ChromaDB/FAISS）压缩为 8-15 个语义模式家族，每个家族仅需 3-5 个代表样本供 SLM 分析，实现 SLM 调用量降低 95%+
Air-Gapped SLM Fix Generation：通过 Ollama 本地运行 Phi-3/Llama-3/Mistral，SLM 输出严格格式化的 Python lambda 表达式（而非直接修改数据），保证 PII 数据完全离线处理
Hybrid Fingerprinting：结合 SHA-256 主键哈希（精确匹配）+ 向量语义相似度（语义聚类），防止 "John Doe ID:101" 与 "Jon Doe ID:102" 因表面相似而被误合并
Zero Data Loss Guarantee：数学约束 Source_Rows == Success_Rows + Quarantine_Rows，任何不匹配触发 Sev-1 告警与 DataLossException，确保修复过程无数据丢失
Lambda Safety Gate：SLM 输出的 lambda 必须以 lambda 开头、不含 import/exec/eval/os/subprocess，通过严格验证后才可执行，防止恶意代码注入
AI Generates Logic Not Data：核心安全原则——AI 仅提供修复逻辑，由系统确定性执行，数据变更全程可审计、可回滚

Key Entities

Data Engineer：通用数据工程师角色（构建管道、设计 schema、编排作业），与 AI Data Remediation Engineer 的专注修复层形成互补
Ollama：本地 LLM 推理引擎，支持 Phi-3/Llama-3/Mistral 等模型在气隙环境下运行
Sentence-Transformers：本地向量嵌入模型（all-MiniLM-L6-v2），用于语义异常聚类
ChromaDB：本地向量数据库，支持异常数据的语义聚类与相似度查询
FAISS：Facebook AI 相似度搜索库，提供高效的向量索引与聚类能力

Connections

Data Engineer ← builds_pipeline ← AI Data Remediation Engineer（修复层位于数据工程师构建的管道之后）
Semantic Anomaly Compression ← depends_on ← Sentence-Transformers（依赖本地嵌入生成）
Semantic Anomaly Compression ← depends_on ← ChromaDB 或 FAISS（依赖向量数据库进行聚类）
Air-Gapped SLM Fix Generation ← depends_on ← Ollama（依赖 Ollama 提供本地推理能力）
Hybrid Fingerprinting ← prevents ← AI Generates Logic Not Data 中的误合并风险

Contradictions

与 Data Engineer 的职责定位：
- 冲突点：Data Engineer 强调管道重构和 schema 设计，AI Data Remediation Engineer 强调不修改管道、专注修复层
- 当前观点：修复层是数据质量保障的必要补充，无需重构现有管道即可提升数据可靠性
- 对方观点：大规模数据问题应通过重构管道和优化 schema 从源头解决

5.4 KiB Raw Blame History Unescape Escape

Source File

Summary（用中文描述）

Key Claims（用中文描述）

Key Quotes

Key Concepts

Key Entities

Connections

Contradictions

5.4 KiB

Raw Blame History