Agent 进流程，第一天先把“失败路径”画出来

我最近听到最多的一句话是： “Agent 很强，但一上生产就开始失控。”

Demo 里它能写方案、能查资料、能跑几步工具调用。

一旦放进真实流程，你就会遇到三件事：

1）网络会抖、接口会挂；2）数据会脏、上下文会缺；3）人会追责、要证据。

这时你会发现，瓶颈不是“会不会做事”。

瓶颈是：你有没有把失败路径、证据链、回退机制设计出来。

一个产业信号：大家在补“控制面”，不再只谈“智能”

在整理2026年05月29日（北京时间）当天资讯时，我看到一个很一致的方向：

很多厂商和社区讨论的重心，开始从“让 Agent 更会聊”，转向“让 Agent 更可管”。

你会看到越来越多关键词出现： orchestration、 audit、 governance、 control plane。

这不是概念升级，是落地被现实逼出来的工程答案。

很多团队把“编排”当控制面。

但我更愿意把控制面拆成 3 件可验收的事：

① 失败路径（Failover / Fallback）

当模型不可用、工具超时、数据缺失时，它应该自动怎么降级？提示谁？回到哪个人工节点？

② 证据链（Audit / Replay）

它当时看到了什么输入？调用了什么工具？做了什么关键判断？写入了什么系统？谁验收？如何回滚？

③ 边界与权限（Skill / Policy）

哪些动作能做、哪些不能做；哪些字段能读、哪些不能读；哪些决策必须有人复核。

我看过一个很朴素但很对的设计：把 Agent 直接嵌进业务页面侧边栏。

你在哪个系统里工作，它就在哪个页面旁边，不让人来回复制粘贴。

关键不在 UI，而在它第一天就把“失败路径”写清楚：

主路径能跑当然好；更重要的是主路径跑不动时，系统依然能交付。

我建议你把每个 Agent 场景都写成“三层运行时”：主路径 + 兜底路径 + 离线兜底。

主路径追求体验；兜底路径保证任务不断；离线兜底保证“最少还能给出结构化输出”。

别从“平台”开始。

从一个高频、可验收、能复盘的场景开始。

比如：合同评审、审批建议、流程盘点、周报、诊断问卷、公众号文章。

很多组织觉得“先把效果做出来再谈治理”。

但真实落地往往相反：

先把失败路径、证据链、复核回退画出来，Agent 才有资格进入流程。

否则它再聪明，也只能停留在聊天框里。

（治理审计记录草案） IETF Datatracker: draft-laterre-gar (Governance Audit Record)

（流程编排与治理控制面的产业信号） Camunda: Process Orchestration + AI / ProcessOS（官方）

（工具与能力的接口标准化） Anthropic: Model Context Protocol（MCP）

（把“多步任务”变成可回放运行时） Temporal: Workflow Orchestration（官方）