我现在看企业 Agent,越来越少问“答得像不像人”,越来越爱问一句很土的:它能不能把这件事做完,并且能回放、能追责、能回滚。
为什么我会这么偏执?
因为大多数所谓“落地”,本质是:业务把材料丢进聊天框,AI 给了建议,然后一切交给人——谁去做、做了没、做对没、出了事谁兜底,全靠口头和群聊。
这不是 Agent 进了流程,这是“咨询建议”换了一个发声器。
一、Computer‑Using Agent 的关键,不是更聪明,而是更“贴身”
北京时间 5 月 26 日那一波信息里,我最关注的一个词是: Computer‑Using Agent。
你可以把它理解成:Agent 不只在对话框里“说”,它会像人一样在网页/应用里“做”——点、填、查、提交、截图留证、失败回退。
这件事对咨询交付的影响非常直接:交付物会从“方法论 + PPT”迁移到“可执行的任务编排 + 可验收的证据链”。
二、真正的交付升级,是把“失败路径”写进方案里
很多团队做 PoC 只证明一件事:模型能不能答出来。
但生产里真正决定生死的是另一件事: 它答不出来、做不下去、权限不够、数据缺失时,系统怎么继续?
我更喜欢把“Agent 交付”拆成四个必答题:
1) 任务怎么拆?(每一步可观测)
2) 工具怎么用?(每一步可回放)
3) 异常怎么兜?(每一步可回滚)
4) 结果怎么验?(每一步可验收)
三、一个来自“页面侧边栏”的印证:AI 回到流程里,不是人去找 AI
我们内部做过一个很小的实验(不涉及客户隐私):把 AI 放到业务系统页面的侧边栏里。
你打开 OA 审批页,它在右侧;你打开合同页面,它在右侧。它先读页面上下文,再按一组明确的 Skill 去干活:抽取字段、生成可填入的意见、补全缺失信息、生成可下载交付物。
这个实验最打动我的,不是“效果多惊艳”,而是它把三件事讲清楚了:
第一,嵌入式比中心化更接近真实流程。 不切换、不复制粘贴,工作流才会自然发生。
第二,降级策略比主路径更重要。 API 断了怎么办、权限不够怎么办、页面读不到怎么办,必须先写。
第三,交付物必须是“文件/工单/日志”。 否则你没法验收,也没法复盘。
四、我用一个“成熟度分层”帮你识别:你到底在做聊天,还是在做交付
L0:纯人工。 靠人脑 + Excel + 会议推动,AI 偶尔帮写几句话。
L1:工具自动化。 流程在系统里跑,AI 在系统外跑,复制粘贴来回切。
L2:AI 辅助判断。 节点上能给建议,但没有一致的验收标准,出了问题也无法定位。
L3:AI 参与执行。 能按步骤去做,能产出交付物,能自动留痕。
L4:半自治闭环。 在规则边界内自动处理,失败能升级给人,过程可回放、可审计、可回滚。
多数团队卡在 L2,不是模型差,而是缺一套“把 AI 约束在流程里”的控制面。
五、别再用“聊得顺不顺”验收 Agent:用“三张账”验收交付
你要真的把 Agent 当生产力,就别用“感觉很聪明”验收。
我建议最少验收三张账:
第一张:结果账。 能不能稳定产出“真实交付物”(文档/表格/工单/审批意见),而不是一段漂亮文本。
第二张:证据账。 每一步有没有日志/截图/回放,出了错能不能定位到“哪一步、缺什么”。
第三张:治理账。 权限、数据边界、异常升级、人审点位是否清晰,能不能复用到更多流程。
六、明天就能开始的动作:用一条流程,把“可执行交付”跑通
如果你今天只能做一件事:别再说“我们要上 Agent”,改成 “我们要把一条流程跑成可回放、可验收的闭环”。
你可以从一个很小的流程开始:报销、采购审批、工单流转、主数据维护,任选一个。
关键是把“失败路径”也当成交付物写出来:不确定就升级、权限不够就申请、数据缺失就补齐、异常就回滚。
公开核查入口(可点开对照): Microsoft Copilot Studio:Computer‑Using Agents 更新、 SAP Signavio:AI & Process Intelligence 活动、 Hyland:受监管行业相关公告。