核心结论
Harness 不是单纯评测模型,而是评测整个 AI 工作流:输入、检索、工具调用、输出、人工复核、异常回退和日志。
适合谁
已经有 AI 工作流或 Agent 原型,准备进入真实业务、客户交付、内部审批或自动化执行的团队。
交付什么
测试集、评测指标、执行轨迹、上线阈值、异常回退策略、人工复核点和验收报告。
一个可上线的 AI 工作流要被怎样验证
测试样例
覆盖正常、边界、失败和高风险场景。
执行轨迹
记录模型、检索、工具调用和人工修改。
质量评分
用明确指标评估准确性、完整性和合规性。
异常回退
失败时能停下、提醒、转人工或降级处理。
上线阈值
达不到质量标准就不进入生产流程。
为什么 Demo 成功不等于可以上线
Demo 往往只验证“能不能跑通”,但生产环境要验证“能不能稳定、可追踪、可解释、可回退”。这两者差异很大。一个销售线索 Agent 在演示里能生成跟进建议,但如果它把客户预算判断错、遗漏关键风险、或把敏感信息写进外部工具,业务代价就会非常高。
运行与评测工程要解决的,是从“看起来可用”到“可以负责”的距离。它让团队知道哪些场景可以自动化,哪些必须人工复核,哪些暂时只能作为辅助建议。
测试集:不要只测顺利场景
| 样例类型 | 目的 | 示例 |
|---|---|---|
| 正常样例 | 验证核心流程是否跑通。 | 一条完整销售线索进入后,自动生成跟进建议。 |
| 边界样例 | 验证资料缺失、格式异常、信息冲突时是否稳健。 | 客户预算为空,但备注里出现采购时间。 |
| 风险样例 | 验证敏感信息、合规边界和人工复核是否触发。 | 合同、报价、人事信息出现在输入材料里。 |
| 失败样例 | 验证系统是否知道自己不能完成任务。 | 资料不足以判断 ROI,但系统不能编造结论。 |
评测指标:不要只看“回答像不像”
准确性
输出是否符合事实,是否引用了正确资料,是否把推测当成结论。
完整性
是否覆盖任务要求中的关键字段,是否遗漏风险、行动项或复核点。
格式合规
输出是否符合团队规定的结构,是否能被 CRM、飞书、表格或报告直接接收。
风险命中
是否识别敏感数据、低置信度判断、越权访问和需要人工确认的内容。
成本与时延
是否在可接受的模型调用成本、执行时间和人工复核比例内完成。
执行轨迹:出了问题要能复盘
上线后的 AI 工作流不能只是返回一个结果,还要记录它为什么得到这个结果。最少应保留以下信息:
- 本次任务的输入、触发来源和执行时间。
- 使用了哪些模型、工具和检索资料。
- 每一步的中间输出和置信度。
- 是否触发人工复核、谁做了修改、修改了什么。
- 最终输出进入了哪个系统,是否产生后续动作。
上线前验收清单
- 是否有覆盖正常、边界、风险和失败场景的测试集?
- 是否定义了准确性、完整性、格式和风险指标?
- 是否明确哪些任务可以自动执行,哪些必须人工确认?
- 是否有异常回退策略,例如转人工、重试、降级或停止?
- 是否记录执行轨迹,方便问题复盘和责任追踪?
- 是否设置上线阈值,达不到标准就不能进入生产?
- 是否有定期复测机制,防止模型或业务变化导致效果衰减?
建议交付物
工作流测试集
覆盖正常、边界、风险和失败场景的样例集合。
评测指标表
定义准确性、完整性、格式合规、风险命中和成本指标。
执行轨迹规范
记录模型调用、工具调用、检索资料和人工修改。
上线验收报告
明确上线阈值、失败边界、复核点和后续迭代计划。