1.7 KiB
1.7 KiB
title, type, tags, sources, last_updated
| title | type | tags | sources | last_updated | ||||
|---|---|---|---|---|---|---|---|---|
| Agent Collapse | concept |
|
|
2026-04-20 |
Overview
Agent Collapse(10-Step Collapse)——AI Agent 在多步任务执行过程中逐渐崩溃的现象,典型表现为步骤 1-3 正常执行,步骤 7 开始幻觉数据,步骤 10 输出损坏的 JSON 或崩溃。
Root Causes
- Context window 静默截断:工具输出超出上下文窗口后被静默截断,模型感知不到数据丢失
- 无 Schema 验证:LLM 输出的字段类型漂移(price 从 float 变为 string),下游管道静默产生垃圾数据
- 无状态管理:context window 是易失的,关键状态(如 pending/in-progress/completed 标记)随上下文重置丢失
- 无幂等重试:单步失败导致整个管道重启,而非精确重试失败步骤
Manifestation Example
部署一个自主 Agent 编写市场研究报告。步骤 1-3 完美执行:计划任务 → 搜索网页 → 提取竞品数据。步骤 7 开始幻觉统计数据(因为搜索工具 payload 超出上下文窗口被静默截断)。步骤 10 输出损坏的 JSON 字符串(因为管道中没有 Schema 验证器)。
Solutions
- Harness-Engineering:系统性地为每个失效点增加防护层
- State-Externalization:将任务状态写入磁盘,不依赖 context window
- Schema-Drift 防护:每个 LLM 输出必须经过 JSON Schema 验证
- Idempotency:单步失败只重试该步,不重启管道