--- title: "Agent Collapse" type: concept tags: - "agentic-ai" - "failure-mode" - "context-window" sources: - "Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog" last_updated: 2026-04-20 --- ## Overview Agent Collapse(10-Step Collapse)——AI Agent 在多步任务执行过程中逐渐崩溃的现象,典型表现为步骤 1-3 正常执行,步骤 7 开始幻觉数据,步骤 10 输出损坏的 JSON 或崩溃。 ## Root Causes - **Context window 静默截断**:工具输出超出上下文窗口后被静默截断,模型感知不到数据丢失 - **无 Schema 验证**:LLM 输出的字段类型漂移(price 从 float 变为 string),下游管道静默产生垃圾数据 - **无状态管理**:context window 是易失的,关键状态(如 pending/in-progress/completed 标记)随上下文重置丢失 - **无幂等重试**:单步失败导致整个管道重启,而非精确重试失败步骤 ## Manifestation Example > 部署一个自主 Agent 编写市场研究报告。步骤 1-3 完美执行:计划任务 → 搜索网页 → 提取竞品数据。步骤 7 开始幻觉统计数据(因为搜索工具 payload 超出上下文窗口被静默截断)。步骤 10 输出损坏的 JSON 字符串(因为管道中没有 Schema 验证器)。 ## Solutions - [[Harness-Engineering]]:系统性地为每个失效点增加防护层 - [[State-Externalization]]:将任务状态写入磁盘,不依赖 context window - [[Schema-Drift]] 防护:每个 LLM 输出必须经过 JSON Schema 验证 - [[Idempotency]]:单步失败只重试该步,不重启管道 ## Source - [[Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog]]