--- title: "Reliability Engineering" type: concept tags: [] sources: - multi-agent-system-reliability last_updated: 2026-04-28 --- # Reliability Engineering ## 定义 可靠性工程——将LLM视为分布式系统中不可靠组件的工程哲学,而非"有感知"的智能体。 ## 核心原则 停止要求模型"小心",开始**强制**其正确: 1. **Constrained(约束)**:通过架构约束(如依赖图强制执行)而非提示词约束 2. **Verified(验证)**:每个步骤有检查点,不合格则退回 3. **Pruned(修剪)**:淘汰表现最差的Agent 4. **Challenged(挑战)**:通过对抗辩论让错误暴露 ## 核心转变 从"AI原型"(Prototype AI)到"企业级AI"(Enterprise AI)的范式转变: - ❌ 将LLM视为神奇的聊天机器人 - ✅ 将LLM视为不可靠的分布式组件 ## 关键人物 - [[Alex Ewerlöf]]:可靠性工程专家,KTH系统工程硕士,27年经验,专注将人类系统协作模式迁移至AI架构 ## 来源 - [[multi-agent-system-reliability]]