AAIPROS

AIPROS · Static Essay Page

别把接口脚本当完整 AI 评测

技术观察 公众号文章 2026-06-25 6 min

最近看一个合同与法务工作台的智能体项目,最扎心的地方不是它出现了中断,而是很多中断一开始被大家归因成“平台能力不够”。

最近看一个合同与法务工作台的智能体项目,最扎心的地方不是它出现了中断,而是很多中断一开始被大家归因成“平台能力不够”。

这当然可能是真的。平台运行时、长任务调度、异常恢复、死循环保护,都可能有问题,也必须修。但一层层往下拆,情况很快变得复杂:有的中断来自平台访问凭证的限流,有的来自 Skill 自身设计让同一个问题反复发生,有的来自模型在长任务里没有被明确要求收束,有的才是平台代码质量本身的问题。

真正刺痛人的地方在这里:这些问题并不隐蔽。它们只是没有被正确的评测方式暴露出来。

很多 AI 产品的评测,还停留在把用例整理成脚本,丢给接口批量跑,最后看成功、失败、耗时、报错。这个动作有价值,它是稳定性回归的基线;但它只能证明系统在一个被切薄的入口上返回了结果,不能单独证明用户在真实工作台里能顺畅完成任务。

合同和法务场景尤其如此。真实用户不会只调用一次接口。他会上传附件、选择模板、切换工作台、等待长任务、查看过程状态、补充材料、处理中断、重新发起、追问原因,最后把结果交给法务、业务或管理者判断。任何一个环节不稳,都会被用户感知为“不可靠”。

一、把接口跑通,不等于把产品测过

接口评测能告诉你“入口和输出是否稳定”,真实动线评测才能告诉你“中间哪里开始变坏”。

很多团队做 AI 评测时,会把任务压缩成一个输入和一个输出:给一份合同,返回审查意见;给一个问题,返回分析结论;给一批附件,返回报告。这样做效率很高,适合做回归,也适合做模型版本对比。

但问题是,智能体产品的失败往往不只发生在输入和输出之间。它可能发生在任务排队时,发生在用户上传附件后,发生在长任务中途等待时,发生在模型重复追问同一件事时,发生在 Skill 进入错误分支时,发生在平台访问凭证被限流时,发生在异常恢复没有把上下文接回来的瞬间。

如果评测只看最后报错,团队会很自然地做出一个粗糙判断:模型不行、平台不稳、运行时有问题。这个判断看似合理,其实太省事了。省事的归因,往往带来低效的修复。

这个判断也不是孤立经验。NIST AI 风险管理框架把 AI 产品、服务和系统的设计、开发、使用、评估放在同一个风险管理视角里;OpenAI 的评估文档也把 evals 视为理解大模型应用表现、构建可靠应用的重要组件;NN/g 的可用性测试方法强调,让参与者完成现实任务,并观察行为与反馈。放到企业 Agent 里,结论很直接:评测不能只像测接口,要像观察一段工作。

二、真正的 Agent 评测,要先复刻用户动线

如果评测没有模仿用户真实动作,它测到的稳定性很可能是假的。

真实动线评测不是让测试同学辛苦一点,多点几下页面。它的本质是把用户完成任务的整个链路还原出来:谁在什么页面发起任务,上传什么材料,选择什么能力,等待多长时间,看到哪些状态,什么时候需要人工判断,失败后是否知道该怎么办。

这也不是说动线评测只能永远人工执行。更合理的节奏是:第一轮由人按真实任务观察,先把状态、断点和异常摸清楚;等路径稳定后,再把高频路径固化成自动化回放和回归用例。接口脚本、端到端自动化、人工观察,各自回答不同问题,不能互相替代。

比如合同审查工作台,一个真实评测用例不能只写“审查合同并输出风险意见”。它至少要写清楚:合同文件从哪里来,是否有补充附件,是否要引用企业条款库,是否涉及付款、违约、交付、数据合规等多类风险,用户希望得到的是红黄绿风险清单、修改建议,还是可直接发给业务的审查意见。

这时评测对象就不再只是模型输出,而是一个完整工作过程:入口是否清楚,材料是否被正确识别,长任务是否持续,过程状态是否可解释,异常是否可恢复,结果是否能被业务使用。

很多问题只有在这种动线里才会出现。接口脚本不会因为等得太久而焦虑,不会因为页面状态不明而重复点击,不会因为上一步没提示清楚而上传错误材料,也不会在任务中断后追问“我刚才做的还在不在”。真实用户会。

三、长任务中断,不一定是平台能力不够

AI 产品的问题,最怕一上来就找“唯一责任方”。长任务失败通常是多因素叠加。

长任务看起来像平台运行时问题,因为中断发生在平台里。但从工程和业务视角看,一次中断至少要拆成四层原因。

第一层是平台本身。任务调度有没有超时保护,是否支持断点恢复,是否能发现重复循环,是否能把异常状态明确展示给用户。第二层是运行配置。平台访问凭证、调用额度、并发限制、网络波动、依赖服务异常,都会让任务表现得像“智能体突然不干了”。

第三层是模型与任务边界。模型有没有被要求在信息不足时停止并询问,有没有被限制重复尝试,有没有清楚知道什么时候应该交付阶段性结果。第四层是 Skill。一个 Skill 如果把流程写成无限追问、模糊判断、重复校验,平台再稳定,也会被拖进循环。

这也是为什么一次真实复测之后,常常会发现“平台有问题”只是结论的一部分。该修平台就修平台,该调模型策略就调模型策略,该改 Skill 就改 Skill,该换运行配置就换运行配置。把问题摊开,修复才会快。

四、Skill 写不好,会把运行时推向异常边界

Skill 不是一段更长的提示词,它是一段可复用工作的运行说明书。

这个判断在很多企业 AI 项目里反复出现。大家以为平台能力上线了,模型能力接进来了,剩下就是把业务提示词写进去。可真正运行后才发现,Skill 的质量直接决定智能体能不能稳定工作。

一个合格的合同审查 Skill,不能只写“你是资深法务,请审查合同风险”。在业务建设语境里,它要说明输入材料有哪些,缺材料时怎么问,先提取哪些合同要素,如何区分风险等级,哪些条款必须引用依据,哪些情况要转人工,输出物应该给谁看,失败时如何收束。

更重要的是,它要避免把智能体推入重复问题。比如已经识别到缺少补充协议,就不要在后续步骤里反复要求同一份材料;如果企业规则库没有命中,就要清楚标注“依据不足,建议人工确认”,而不是继续猜测。长任务中很多看似平台中断的现象,背后其实是 Skill 没有设计终止条件。

所以,评测一个 Agent,不能只测模型答案,也要测 Skill 行为。它有没有调对能力,有没有按顺序执行,有没有在异常时停下来,有没有把结果交给人判断,有没有留下可追踪的过程记录。没有这些,平台越强,越容易把一个坏 Skill 跑得更快、更远。

五、评测要变成归因系统,而不是报错收集器

一个只统计失败率的评测系统,救不了复杂 AI 产品。

失败率当然要看。任务完成率、耗时、输出质量、人工接管次数、中断次数,都要看。但这些指标只能告诉你“病得重不重”,不能告诉你“病在哪里”。

更有效的做法,是把每一次失败都打上原因标签。至少要分成几类:用户动线问题、平台运行问题、运行配置问题、模型行为问题、Skill 设计问题、材料质量问题、外部系统问题。每个失败 Case 都要能回放,能看到关键状态,能定位它从哪一步开始偏离。

这时评测的价值会变得完全不同。它不再是上线前的盖章动作,而是产品、研发、算法、业务专家、Skill 设计者一起工作的事实底座。大家不用争“到底是谁的问题”,因为真实 Case 会把问题摆出来。

AI 产品经理在这里的职责,不是替每一层写技术修复方案,而是把评测资产产品化:任务包、成功标准、过程观测点、失败标签、复测规则。研发要把链路打稳,模型团队要把策略调准,业务专家要确认结果能不能用;产品经理要定义什么叫“业务上完成”、哪里必须人工接管、哪类问题进入哪条修复队列。

我更建议把 Agent 评测成熟度分成五层:L0 是人工试用,靠个人感觉判断好不好;L1 是接口脚本,只看输入输出;L2 是任务回放,能复现典型用户路径;L3 是过程观测,能记录状态变化、调用链路、人工介入和异常原因;L4 是迭代闭环,评测结果直接进入修复、AB 对比和再次回归。

多数团队不是没有评测,而是卡在 L1。能跑脚本,但看不见过程;能看到报错,但没有归因;能修一个点,但不知道同类问题还会不会复发。

六、最有效的修复方式,是拿真实 Case 做 AB Test

别急着争论谁对谁错,把同一个 Case 跑给对方看。

企业协作里有一个很现实的细节:很少有人愿意听你说“你这里也有问题”。平台团队不想被说能力不足,业务团队不想被说用法不对,Skill 设计者不想被说写得不稳,模型团队也不想被一句“模型不行”概括。

最好的办法不是讲道理,而是拿真实 Case 做对比。原来的 Skill 跑一次,调整后的 Skill 跑一次;原来的模型策略跑一次,收束条件明确后的策略跑一次;原来的运行配置跑一次,去掉限流干扰后的配置跑一次。过程录下来,结果摆出来。

当对方看到同一份合同、同一套附件、同一个任务,在不同版本下中断率、重复追问、耗时和输出质量明显变化,很多争论会自然消失。不是谁承认自己有问题,而是大家终于看见了问题在哪里。

这也是 AI 产品迭代里最重要的沟通技巧:不要用抽象判断说服人,要用可复现的任务说服系统。真实 Case 比任何会议纪要都有力量。

七、AI 产品的评测,不是验收动作,而是迭代起点

传统软件可以把很多验收放在后面,AI 产品更需要把评测放在前面。

传统软件里,很多功能的输入、路径和输出相对确定。按钮点了,字段校验了,流程流转了,验收更像上线前的门禁。AI 产品不一样。模型会变,任务会变,材料会变,用户问法会变,Skill 会被不断改写,外部系统也会波动。

所以 AI 产品的评测不能只服务于“能不能上线”。它要服务于“下一轮该改哪里”。评测越早进入,团队越容易建立共同语言:这个 Case 是模型问题,那个 Case 是 Skill 终止条件问题,另一个 Case 是运行配置问题,还有一个 Case 是用户动线设计问题。

对合同和法务这类高风险工作台来说,这一点更关键。你不能只问“最终审查意见对不对”,还要问“依据从哪里来、过程能不能回放、异常有没有提示、人工复核在什么位置、系统有没有越过授权边界”。这些问题本质上不是技术洁癖,而是让业务敢用、持续用、出了问题能追踪。

明天就能做的动作并不复杂。先选十个真实任务,不要选演示材料;每个任务打包原始附件、用户目标、期望输出和业务判断标准;再让测试人员按真实工作台路径执行,不只记录最后结果,也记录等待、重复、失败、补充材料和人工接管;最后把每个问题分到平台、运行配置、模型、Skill、用户动线和外部系统六类里。

做完这一轮,你会发现很多争论没有必要。该改代码的改代码,该改 Skill 的改 Skill,该调整模型策略的调整模型策略,该补工作台状态提示的补提示。评测不是为了证明某个团队没问题,而是为了让整个系统更快变好。

企业 AI 真正进入深水区以后,谁的模型更强只是一部分问题。更大的分水岭,是谁能把真实工作拆成可评测、可归因、可修复、可复跑的任务闭环。只有这样,智能体才不是一次次碰运气的演示,而是能在业务现场持续变稳的生产系统。