运行与评测工程 | AI 提效中心

核心结论

Harness 不是单纯评测模型，而是评测整个 AI 工作流：输入、检索、工具调用、输出、人工复核、异常回退和日志。

适合谁

已经有 AI 工作流或 Agent 原型，准备进入真实业务、客户交付、内部审批或自动化执行的团队。

交付什么

测试集、评测指标、执行轨迹、上线阈值、异常回退策略、人工复核点和验收报告。

运行框架

一个可上线的 AI 工作流要被怎样验证

测试样例

覆盖正常、边界、失败和高风险场景。

执行轨迹

记录模型、检索、工具调用和人工修改。

质量评分

用明确指标评估准确性、完整性和合规性。

异常回退

失败时能停下、提醒、转人工或降级处理。

上线阈值

达不到质量标准就不进入生产流程。

为什么 Demo 成功不等于可以上线

Demo 往往只验证“能不能跑通”，但生产环境要验证“能不能稳定、可追踪、可解释、可回退”。这两者差异很大。一个销售线索 Agent 在演示里能生成跟进建议，但如果它把客户预算判断错、遗漏关键风险、或把敏感信息写进外部工具，业务代价就会非常高。

运行与评测工程要解决的，是从“看起来可用”到“可以负责”的距离。它让团队知道哪些场景可以自动化，哪些必须人工复核，哪些暂时只能作为辅助建议。

测试集：不要只测顺利场景

样例类型	目的	示例
正常样例	验证核心流程是否跑通。	一条完整销售线索进入后，自动生成跟进建议。
边界样例	验证资料缺失、格式异常、信息冲突时是否稳健。	客户预算为空，但备注里出现采购时间。
风险样例	验证敏感信息、合规边界和人工复核是否触发。	合同、报价、人事信息出现在输入材料里。
失败样例	验证系统是否知道自己不能完成任务。	资料不足以判断 ROI，但系统不能编造结论。

评测指标：不要只看“回答像不像”

准确性

输出是否符合事实，是否引用了正确资料，是否把推测当成结论。

完整性

是否覆盖任务要求中的关键字段，是否遗漏风险、行动项或复核点。

格式合规

输出是否符合团队规定的结构，是否能被 CRM、飞书、表格或报告直接接收。

风险命中

是否识别敏感数据、低置信度判断、越权访问和需要人工确认的内容。

成本与时延

是否在可接受的模型调用成本、执行时间和人工复核比例内完成。

执行轨迹：出了问题要能复盘

上线后的 AI 工作流不能只是返回一个结果，还要记录它为什么得到这个结果。最少应保留以下信息：

本次任务的输入、触发来源和执行时间。
使用了哪些模型、工具和检索资料。
每一步的中间输出和置信度。
是否触发人工复核、谁做了修改、修改了什么。
最终输出进入了哪个系统，是否产生后续动作。

上线前验收清单

是否有覆盖正常、边界、风险和失败场景的测试集？
是否定义了准确性、完整性、格式和风险指标？
是否明确哪些任务可以自动执行，哪些必须人工确认？
是否有异常回退策略，例如转人工、重试、降级或停止？
是否记录执行轨迹，方便问题复盘和责任追踪？
是否设置上线阈值，达不到标准就不能进入生产？
是否有定期复测机制，防止模型或业务变化导致效果衰减？

建议交付物

■

工作流测试集

覆盖正常、边界、风险和失败场景的样例集合。

◎

评测指标表

定义准确性、完整性、格式合规、风险命中和成本指标。

▲

执行轨迹规范

记录模型调用、工具调用、检索资料和人工修改。

◆

上线验收报告

明确上线阈值、失败边界、复核点和后续迭代计划。