从“会聊天”到“会操作”：Computer‑Using Agent 把交付拉进运行时

我现在看企业 Agent，越来越少问“答得像不像人”，越来越爱问一句很土的：它能不能把这件事做完，并且能回放、能追责、能回滚。

为什么我会这么偏执？

因为大多数所谓“落地”，本质是：业务把材料丢进聊天框，AI 给了建议，然后一切交给人——谁去做、做了没、做对没、出了事谁兜底，全靠口头和群聊。

这不是 Agent 进了流程，这是“咨询建议”换了一个发声器。

一、Computer‑Using Agent 的关键，不是更聪明，而是更“贴身”

北京时间 5 月 26 日那一波信息里，我最关注的一个词是： Computer‑Using Agent。

你可以把它理解成：Agent 不只在对话框里“说”，它会像人一样在网页/应用里“做”——点、填、查、提交、截图留证、失败回退。

这件事对咨询交付的影响非常直接：交付物会从“方法论 + PPT”迁移到“可执行的任务编排 + 可验收的证据链”。

很多团队做 PoC 只证明一件事：模型能不能答出来。

但生产里真正决定生死的是另一件事：它答不出来、做不下去、权限不够、数据缺失时，系统怎么继续？

我更喜欢把“Agent 交付”拆成四个必答题：

1) 任务怎么拆？（每一步可观测）

2) 工具怎么用？（每一步可回放）

3) 异常怎么兜？（每一步可回滚）

4) 结果怎么验？（每一步可验收）

我们内部做过一个很小的实验（不涉及客户隐私）：把 AI 放到业务系统页面的侧边栏里。

你打开 OA 审批页，它在右侧；你打开合同页面，它在右侧。它先读页面上下文，再按一组明确的 Skill 去干活：抽取字段、生成可填入的意见、补全缺失信息、生成可下载交付物。

这个实验最打动我的，不是“效果多惊艳”，而是它把三件事讲清楚了：

第一，嵌入式比中心化更接近真实流程。不切换、不复制粘贴，工作流才会自然发生。

第二，降级策略比主路径更重要。 API 断了怎么办、权限不够怎么办、页面读不到怎么办，必须先写。

第三，交付物必须是“文件/工单/日志”。否则你没法验收，也没法复盘。

L0：纯人工。靠人脑 + Excel + 会议推动，AI 偶尔帮写几句话。

L1：工具自动化。流程在系统里跑，AI 在系统外跑，复制粘贴来回切。

L2：AI 辅助判断。节点上能给建议，但没有一致的验收标准，出了问题也无法定位。

L3：AI 参与执行。能按步骤去做，能产出交付物，能自动留痕。

L4：半自治闭环。在规则边界内自动处理，失败能升级给人，过程可回放、可审计、可回滚。

多数团队卡在 L2，不是模型差，而是缺一套“把 AI 约束在流程里”的控制面。

你要真的把 Agent 当生产力，就别用“感觉很聪明”验收。

我建议最少验收三张账：

第一张：结果账。能不能稳定产出“真实交付物”（文档/表格/工单/审批意见），而不是一段漂亮文本。

第二张：证据账。每一步有没有日志/截图/回放，出了错能不能定位到“哪一步、缺什么”。

第三张：治理账。权限、数据边界、异常升级、人审点位是否清晰，能不能复用到更多流程。

如果你今天只能做一件事：别再说“我们要上 Agent”，改成 “我们要把一条流程跑成可回放、可验收的闭环”。

你可以从一个很小的流程开始：报销、采购审批、工单流转、主数据维护，任选一个。

关键是把“失败路径”也当成交付物写出来：不确定就升级、权限不够就申请、数据缺失就补齐、异常就回滚。

公开核查入口（可点开对照）： Microsoft Copilot Studio：Computer‑Using Agents 更新、 SAP Signavio：AI & Process Intelligence 活动、 Hyland：受监管行业相关公告。