58 lines
5.4 KiB
Markdown
58 lines
5.4 KiB
Markdown
---
|
||
title: "AI Data Remediation Engineer Agent Personality"
|
||
type: source
|
||
tags: []
|
||
date: 2026-05-01
|
||
---
|
||
|
||
## Source File
|
||
- [[raw/Agent/agency-agents/engineering/engineering-ai-data-remediation-engineer.md]]
|
||
|
||
## Summary(用中文描述)
|
||
- 核心主题:AI 数据修复工程师——使用气隙本地 SLM 和语义聚类技术,对大规模数据管道中的异常数据进行自动检测、分类与确定性修复的专业角色。专注于修复层:在数据损坏且管道无法停止的场景下,保证零数据丢失。
|
||
- 问题域:数据管道中的异常数据修复,特别是生产环境无法停机、常规规则引擎无法处理语义歧义数据、需要 PII 合规保护的场景
|
||
- 方法/机制:语义异常压缩(50,000 条错误行 → 8-15 个模式家族,SLM 调用从 50,000 次降至 ~12 次);气隙 SLM Fix Generation(通过 Ollama 本地运行 Phi-3/Llama-3/Mistral,生成确定性 Python lambda);零数据丢失保证(Source == Success + Quarantine 数学约束);混合指纹识别(SHA-256 PK 哈希 + 向量相似度,防止误合并)
|
||
- 结论/价值:每条数据变更均有完整审计轨迹;95%+ SLM 调用减少;PII 零网络出口;Lambda 拒绝率 < 5%;人工隔离率 < 10%
|
||
|
||
## Key Claims(用中文描述)
|
||
- AI 应生成修复数据的逻辑,而非直接操作数据——SLM 仅输出 Python lambda,系统执行,不直接修改数据
|
||
- 语义聚类可将海量异常数据压缩为可管理的模式家族,SLM 只需处理少数代表样本而非逐行处理
|
||
- 气隙 SLM(Ollama 本地运行)保证 PII 数据零网络出口,满足企业数据合规要求
|
||
- 混合指纹识别结合 SHA-256 主键哈希与向量语义相似度,防止因表面相似而误合并不同记录
|
||
- 零数据丢失是数学约束而非目标——通过 Source == Success + Quarantine 等式自动强制执行,任何不匹配触发 Sev-1 告警
|
||
|
||
## Key Quotes
|
||
> "AI should generate the logic that fixes data — never touch the data directly." — 核心设计哲学
|
||
> "The SLM outputs a transformation function. Your system executes it. You can audit, rollback, and explain a function." — AI 生成逻辑 vs 直接修改数据的边界
|
||
> "Medical records, financial data, personally identifiable information — none of it touches an external API. Ollama runs locally." — PII 零出口原则
|
||
> "Semantic similarity is fuzzy. Always combine vector similarity with SHA-256 hashing of primary keys — if the PK hash differs, force separate clusters." — 混合指纹防误报
|
||
> "Every AI-applied transformation is logged: [Row_ID, Old_Value, New_Value, Lambda_Applied, Confidence_Score, Model_Version, Timestamp]" — 完整审计轨迹要求
|
||
|
||
## Key Concepts
|
||
- [[Semantic Anomaly Compression]]:将海量异常数据行通过向量嵌入(sentence-transformers)+ 聚类(ChromaDB/FAISS)压缩为 8-15 个语义模式家族,每个家族仅需 3-5 个代表样本供 SLM 分析,实现 SLM 调用量降低 95%+
|
||
- [[Air-Gapped SLM Fix Generation]]:通过 Ollama 本地运行 Phi-3/Llama-3/Mistral,SLM 输出严格格式化的 Python lambda 表达式(而非直接修改数据),保证 PII 数据完全离线处理
|
||
- [[Hybrid Fingerprinting]]:结合 SHA-256 主键哈希(精确匹配)+ 向量语义相似度(语义聚类),防止 `"John Doe ID:101"` 与 `"Jon Doe ID:102"` 因表面相似而被误合并
|
||
- [[Zero Data Loss Guarantee]]:数学约束 `Source_Rows == Success_Rows + Quarantine_Rows`,任何不匹配触发 Sev-1 告警与 DataLossException,确保修复过程无数据丢失
|
||
- [[Lambda Safety Gate]]:SLM 输出的 lambda 必须以 `lambda` 开头、不含 `import/exec/eval/os/subprocess`,通过严格验证后才可执行,防止恶意代码注入
|
||
- [[AI Generates Logic Not Data]]:核心安全原则——AI 仅提供修复逻辑,由系统确定性执行,数据变更全程可审计、可回滚
|
||
|
||
## Key Entities
|
||
- [[Data Engineer]]:通用数据工程师角色(构建管道、设计 schema、编排作业),与 AI Data Remediation Engineer 的专注修复层形成互补
|
||
- [[Ollama]]:本地 LLM 推理引擎,支持 Phi-3/Llama-3/Mistral 等模型在气隙环境下运行
|
||
- [[Sentence-Transformers]]:本地向量嵌入模型(all-MiniLM-L6-v2),用于语义异常聚类
|
||
- [[ChromaDB]]:本地向量数据库,支持异常数据的语义聚类与相似度查询
|
||
- [[FAISS]]:Facebook AI 相似度搜索库,提供高效的向量索引与聚类能力
|
||
|
||
## Connections
|
||
- [[Data Engineer]] ← builds_pipeline ← [[AI Data Remediation Engineer]](修复层位于数据工程师构建的管道之后)
|
||
- [[Semantic Anomaly Compression]] ← depends_on ← [[Sentence-Transformers]](依赖本地嵌入生成)
|
||
- [[Semantic Anomaly Compression]] ← depends_on ← [[ChromaDB]] 或 [[FAISS]](依赖向量数据库进行聚类)
|
||
- [[Air-Gapped SLM Fix Generation]] ← depends_on ← [[Ollama]](依赖 Ollama 提供本地推理能力)
|
||
- [[Hybrid Fingerprinting]] ← prevents ← [[AI Generates Logic Not Data]] 中的误合并风险
|
||
|
||
## Contradictions
|
||
- 与 [[Data Engineer]] 的职责定位:
|
||
- 冲突点:Data Engineer 强调管道重构和 schema 设计,AI Data Remediation Engineer 强调不修改管道、专注修复层
|
||
- 当前观点:修复层是数据质量保障的必要补充,无需重构现有管道即可提升数据可靠性
|
||
- 对方观点:大规模数据问题应通过重构管道和优化 schema 从源头解决
|