Files
nexus/wiki/sources/engineering-ai-data-remediation-engineer.md
2026-05-03 05:42:12 +08:00

58 lines
5.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "AI Data Remediation Engineer Agent Personality"
type: source
tags: []
date: 2026-05-01
---
## Source File
- [[raw/Agent/agency-agents/engineering/engineering-ai-data-remediation-engineer.md]]
## Summary用中文描述
- 核心主题AI 数据修复工程师——使用气隙本地 SLM 和语义聚类技术,对大规模数据管道中的异常数据进行自动检测、分类与确定性修复的专业角色。专注于修复层:在数据损坏且管道无法停止的场景下,保证零数据丢失。
- 问题域:数据管道中的异常数据修复,特别是生产环境无法停机、常规规则引擎无法处理语义歧义数据、需要 PII 合规保护的场景
- 方法/机制语义异常压缩50,000 条错误行 → 8-15 个模式家族SLM 调用从 50,000 次降至 ~12 次);气隙 SLM Fix Generation通过 Ollama 本地运行 Phi-3/Llama-3/Mistral生成确定性 Python lambda零数据丢失保证Source == Success + Quarantine 数学约束混合指纹识别SHA-256 PK 哈希 + 向量相似度,防止误合并)
- 结论/价值每条数据变更均有完整审计轨迹95%+ SLM 调用减少PII 零网络出口Lambda 拒绝率 < 5%;人工隔离率 < 10%
## Key Claims用中文描述
- AI 应生成修复数据的逻辑而非直接操作数据——SLM 仅输出 Python lambda系统执行不直接修改数据
- 语义聚类可将海量异常数据压缩为可管理的模式家族SLM 只需处理少数代表样本而非逐行处理
- 气隙 SLMOllama 本地运行)保证 PII 数据零网络出口,满足企业数据合规要求
- 混合指纹识别结合 SHA-256 主键哈希与向量语义相似度,防止因表面相似而误合并不同记录
- 零数据丢失是数学约束而非目标——通过 Source == Success + Quarantine 等式自动强制执行,任何不匹配触发 Sev-1 告警
## Key Quotes
> "AI should generate the logic that fixes data — never touch the data directly." — 核心设计哲学
> "The SLM outputs a transformation function. Your system executes it. You can audit, rollback, and explain a function." — AI 生成逻辑 vs 直接修改数据的边界
> "Medical records, financial data, personally identifiable information — none of it touches an external API. Ollama runs locally." — PII 零出口原则
> "Semantic similarity is fuzzy. Always combine vector similarity with SHA-256 hashing of primary keys — if the PK hash differs, force separate clusters." — 混合指纹防误报
> "Every AI-applied transformation is logged: [Row_ID, Old_Value, New_Value, Lambda_Applied, Confidence_Score, Model_Version, Timestamp]" — 完整审计轨迹要求
## Key Concepts
- [[Semantic Anomaly Compression]]将海量异常数据行通过向量嵌入sentence-transformers+ 聚类ChromaDB/FAISS压缩为 8-15 个语义模式家族,每个家族仅需 3-5 个代表样本供 SLM 分析,实现 SLM 调用量降低 95%+
- [[Air-Gapped SLM Fix Generation]]:通过 Ollama 本地运行 Phi-3/Llama-3/MistralSLM 输出严格格式化的 Python lambda 表达式(而非直接修改数据),保证 PII 数据完全离线处理
- [[Hybrid Fingerprinting]]:结合 SHA-256 主键哈希(精确匹配)+ 向量语义相似度(语义聚类),防止 `"John Doe ID:101"``"Jon Doe ID:102"` 因表面相似而被误合并
- [[Zero Data Loss Guarantee]]:数学约束 `Source_Rows == Success_Rows + Quarantine_Rows`,任何不匹配触发 Sev-1 告警与 DataLossException确保修复过程无数据丢失
- [[Lambda Safety Gate]]SLM 输出的 lambda 必须以 `lambda` 开头、不含 `import/exec/eval/os/subprocess`,通过严格验证后才可执行,防止恶意代码注入
- [[AI Generates Logic Not Data]]核心安全原则——AI 仅提供修复逻辑,由系统确定性执行,数据变更全程可审计、可回滚
## Key Entities
- [[Data Engineer]]:通用数据工程师角色(构建管道、设计 schema、编排作业与 AI Data Remediation Engineer 的专注修复层形成互补
- [[Ollama]]:本地 LLM 推理引擎,支持 Phi-3/Llama-3/Mistral 等模型在气隙环境下运行
- [[Sentence-Transformers]]本地向量嵌入模型all-MiniLM-L6-v2用于语义异常聚类
- [[ChromaDB]]:本地向量数据库,支持异常数据的语义聚类与相似度查询
- [[FAISS]]Facebook AI 相似度搜索库,提供高效的向量索引与聚类能力
## Connections
- [[Data Engineer]] ← builds_pipeline ← [[AI Data Remediation Engineer]](修复层位于数据工程师构建的管道之后)
- [[Semantic Anomaly Compression]] ← depends_on ← [[Sentence-Transformers]](依赖本地嵌入生成)
- [[Semantic Anomaly Compression]] ← depends_on ← [[ChromaDB]] 或 [[FAISS]](依赖向量数据库进行聚类)
- [[Air-Gapped SLM Fix Generation]] ← depends_on ← [[Ollama]](依赖 Ollama 提供本地推理能力)
- [[Hybrid Fingerprinting]] ← prevents ← [[AI Generates Logic Not Data]] 中的误合并风险
## Contradictions
- 与 [[Data Engineer]] 的职责定位:
- 冲突点Data Engineer 强调管道重构和 schema 设计AI Data Remediation Engineer 强调不修改管道、专注修复层
- 当前观点:修复层是数据质量保障的必要补充,无需重构现有管道即可提升数据可靠性
- 对方观点:大规模数据问题应通过重构管道和优化 schema 从源头解决