运行与评测工程

很多 AI Demo 看起来很好,但一进入真实业务就会遇到稳定性、责任边界、失败回退、成本和审计问题。运行与评测工程的目标,是给 AI Agent 和工作流搭一套测试台与上线护栏。

适合 Agent 团队 适合上线前验收 适合高风险业务流程

核心结论

Harness 不是单纯评测模型,而是评测整个 AI 工作流:输入、检索、工具调用、输出、人工复核、异常回退和日志。

适合谁

已经有 AI 工作流或 Agent 原型,准备进入真实业务、客户交付、内部审批或自动化执行的团队。

交付什么

测试集、评测指标、执行轨迹、上线阈值、异常回退策略、人工复核点和验收报告。

运行框架

一个可上线的 AI 工作流要被怎样验证

1

测试样例

覆盖正常、边界、失败和高风险场景。

2

执行轨迹

记录模型、检索、工具调用和人工修改。

3

质量评分

用明确指标评估准确性、完整性和合规性。

4

异常回退

失败时能停下、提醒、转人工或降级处理。

5

上线阈值

达不到质量标准就不进入生产流程。

为什么 Demo 成功不等于可以上线

Demo 往往只验证“能不能跑通”,但生产环境要验证“能不能稳定、可追踪、可解释、可回退”。这两者差异很大。一个销售线索 Agent 在演示里能生成跟进建议,但如果它把客户预算判断错、遗漏关键风险、或把敏感信息写进外部工具,业务代价就会非常高。

运行与评测工程要解决的,是从“看起来可用”到“可以负责”的距离。它让团队知道哪些场景可以自动化,哪些必须人工复核,哪些暂时只能作为辅助建议。

测试集:不要只测顺利场景

样例类型 目的 示例
正常样例 验证核心流程是否跑通。 一条完整销售线索进入后,自动生成跟进建议。
边界样例 验证资料缺失、格式异常、信息冲突时是否稳健。 客户预算为空,但备注里出现采购时间。
风险样例 验证敏感信息、合规边界和人工复核是否触发。 合同、报价、人事信息出现在输入材料里。
失败样例 验证系统是否知道自己不能完成任务。 资料不足以判断 ROI,但系统不能编造结论。

评测指标:不要只看“回答像不像”

准确性

输出是否符合事实,是否引用了正确资料,是否把推测当成结论。

完整性

是否覆盖任务要求中的关键字段,是否遗漏风险、行动项或复核点。

格式合规

输出是否符合团队规定的结构,是否能被 CRM、飞书、表格或报告直接接收。

风险命中

是否识别敏感数据、低置信度判断、越权访问和需要人工确认的内容。

成本与时延

是否在可接受的模型调用成本、执行时间和人工复核比例内完成。

执行轨迹:出了问题要能复盘

上线后的 AI 工作流不能只是返回一个结果,还要记录它为什么得到这个结果。最少应保留以下信息:

  • 本次任务的输入、触发来源和执行时间。
  • 使用了哪些模型、工具和检索资料。
  • 每一步的中间输出和置信度。
  • 是否触发人工复核、谁做了修改、修改了什么。
  • 最终输出进入了哪个系统,是否产生后续动作。

上线前验收清单

  • 是否有覆盖正常、边界、风险和失败场景的测试集?
  • 是否定义了准确性、完整性、格式和风险指标?
  • 是否明确哪些任务可以自动执行,哪些必须人工确认?
  • 是否有异常回退策略,例如转人工、重试、降级或停止?
  • 是否记录执行轨迹,方便问题复盘和责任追踪?
  • 是否设置上线阈值,达不到标准就不能进入生产?
  • 是否有定期复测机制,防止模型或业务变化导致效果衰减?

建议交付物

工作流测试集

覆盖正常、边界、风险和失败场景的样例集合。

评测指标表

定义准确性、完整性、格式合规、风险命中和成本指标。

执行轨迹规范

记录模型调用、工具调用、检索资料和人工修改。

上线验收报告

明确上线阈值、失败边界、复核点和后续迭代计划。