nexus/wiki/concepts/Reliability-Engineering.md

---
title: "Reliability Engineering"
type: concept
tags: []
sources:
  - multi-agent-system-reliability
last_updated: 2026-04-28
---

# Reliability Engineering

## 定义
可靠性工程——将LLM视为分布式系统中不可靠组件的工程哲学，而非"有感知"的智能体。

## 核心原则
停止要求模型"小心"，开始**强制**其正确：

1. **Constrained（约束）**：通过架构约束（如依赖图强制执行）而非提示词约束
2. **Verified（验证）**：每个步骤有检查点，不合格则退回
3. **Pruned（修剪）**：淘汰表现最差的Agent
4. **Challenged（挑战）**：通过对抗辩论让错误暴露

## 核心转变
从"AI原型"（Prototype AI）到"企业级AI"（Enterprise AI）的范式转变：
- ❌ 将LLM视为神奇的聊天机器人
- ✅ 将LLM视为不可靠的分布式组件

## 关键人物
- [[Alex Ewerlöf]]：可靠性工程专家，KTH系统工程硕士，27年经验，专注将人类系统协作模式迁移至AI架构

## 来源
- [[multi-agent-system-reliability]]