AAIPROS

AIPROS · Static Essay Page

从“会聊天”到“会操作”:Computer‑Using Agent 把交付拉进运行时

Agent治理 公众号文章 2026-05-26 3 min

我现在看企业 Agent,越来越少问“答得像不像人”,越来越爱问一句很土的:它能不能把这件事做完,并且能回放、能追责、能回滚。

我现在看企业 Agent,越来越少问“答得像不像人”,越来越爱问一句很土的:它能不能把这件事做完,并且能回放、能追责、能回滚。

为什么我会这么偏执?

因为大多数所谓“落地”,本质是:业务把材料丢进聊天框,AI 给了建议,然后一切交给人——谁去做、做了没、做对没、出了事谁兜底,全靠口头和群聊。

这不是 Agent 进了流程,这是“咨询建议”换了一个发声器。

一、Computer‑Using Agent 的关键,不是更聪明,而是更“贴身”

北京时间 5 月 26 日那一波信息里,我最关注的一个词是: Computer‑Using Agent。

你可以把它理解成:Agent 不只在对话框里“说”,它会像人一样在网页/应用里“做”——点、填、查、提交、截图留证、失败回退。

这件事对咨询交付的影响非常直接:交付物会从“方法论 + PPT”迁移到“可执行的任务编排 + 可验收的证据链”。

二、真正的交付升级,是把“失败路径”写进方案里

很多团队做 PoC 只证明一件事:模型能不能答出来。

但生产里真正决定生死的是另一件事: 它答不出来、做不下去、权限不够、数据缺失时,系统怎么继续?

我更喜欢把“Agent 交付”拆成四个必答题:

1) 任务怎么拆?(每一步可观测)

2) 工具怎么用?(每一步可回放)

3) 异常怎么兜?(每一步可回滚)

4) 结果怎么验?(每一步可验收)

三、一个来自“页面侧边栏”的印证:AI 回到流程里,不是人去找 AI

我们内部做过一个很小的实验(不涉及客户隐私):把 AI 放到业务系统页面的侧边栏里。

你打开 OA 审批页,它在右侧;你打开合同页面,它在右侧。它先读页面上下文,再按一组明确的 Skill 去干活:抽取字段、生成可填入的意见、补全缺失信息、生成可下载交付物。

这个实验最打动我的,不是“效果多惊艳”,而是它把三件事讲清楚了:

第一,嵌入式比中心化更接近真实流程。 不切换、不复制粘贴,工作流才会自然发生。

第二,降级策略比主路径更重要。 API 断了怎么办、权限不够怎么办、页面读不到怎么办,必须先写。

第三,交付物必须是“文件/工单/日志”。 否则你没法验收,也没法复盘。

四、我用一个“成熟度分层”帮你识别:你到底在做聊天,还是在做交付

L0:纯人工。 靠人脑 + Excel + 会议推动,AI 偶尔帮写几句话。

L1:工具自动化。 流程在系统里跑,AI 在系统外跑,复制粘贴来回切。

L2:AI 辅助判断。 节点上能给建议,但没有一致的验收标准,出了问题也无法定位。

L3:AI 参与执行。 能按步骤去做,能产出交付物,能自动留痕。

L4:半自治闭环。 在规则边界内自动处理,失败能升级给人,过程可回放、可审计、可回滚。

多数团队卡在 L2,不是模型差,而是缺一套“把 AI 约束在流程里”的控制面。

五、别再用“聊得顺不顺”验收 Agent:用“三张账”验收交付

你要真的把 Agent 当生产力,就别用“感觉很聪明”验收。

我建议最少验收三张账:

第一张:结果账。 能不能稳定产出“真实交付物”(文档/表格/工单/审批意见),而不是一段漂亮文本。

第二张:证据账。 每一步有没有日志/截图/回放,出了错能不能定位到“哪一步、缺什么”。

第三张:治理账。 权限、数据边界、异常升级、人审点位是否清晰,能不能复用到更多流程。

六、明天就能开始的动作:用一条流程,把“可执行交付”跑通

如果你今天只能做一件事:别再说“我们要上 Agent”,改成 “我们要把一条流程跑成可回放、可验收的闭环”。

你可以从一个很小的流程开始:报销、采购审批、工单流转、主数据维护,任选一个。

关键是把“失败路径”也当成交付物写出来:不确定就升级、权限不够就申请、数据缺失就补齐、异常就回滚。

公开核查入口(可点开对照): Microsoft Copilot Studio:Computer‑Using Agents 更新、 SAP Signavio:AI & Process Intelligence 活动、 Hyland:受监管行业相关公告。