核心结论
Agent 验收不是看一次结果好不好,而是看一组代表性任务中,系统是否稳定、可控、可追踪、可回退。
适合谁
准备把 Agent、Dify 工作流、n8n 自动化、Coze 原型或私有化 AI 助手接入真实业务的团队。
交付什么
上线前验收表、测试样例清单、风险复核点、异常回退策略和上线建议。
验收的 6 个维度
| 维度 | 检查问题 | 不达标风险 |
|---|---|---|
| 任务成功率 | 在代表性测试集里,是否能稳定完成核心任务? | 上线后频繁失败,业务方失去信任。 |
| 输出质量 | 是否准确、完整、格式稳定,并能进入下游系统? | 人工返工过多,自动化收益被抵消。 |
| 风险拦截 | 是否能识别敏感信息、低置信度和越权请求? | 引发合规、客户数据或商业风险。 |
| 人工复核 | 哪些任务必须转人工,谁负责确认? | 责任链条不清,错误无人兜底。 |
| 异常回退 | 失败时是否能停止、重试、降级或转人工? | 错误继续扩散到 CRM、飞书、客户消息等系统。 |
| 执行日志 | 是否记录输入、模型、工具调用、检索材料和最终输出? | 问题无法复盘,也无法证明系统可靠。 |
上线前验收清单
- 是否有不少于 20 条代表性测试样例?
- 测试样例是否覆盖正常、边界、风险和失败场景?
- 是否定义任务成功率最低阈值?
- 是否定义输出质量评分标准?
- 是否列出必须人工复核的条件?
- 是否明确异常回退方式和负责人?
- 是否记录完整执行日志?
- 是否评估单次执行成本和峰值成本?
- 是否确认结果进入下游系统前有必要校验?
- 是否设置上线后的定期复测机制?
建议上线阈值
以下阈值不是行业硬标准,而是适合中小团队做上线前判断的保守起点。风险越高,阈值越应该提高。
| 场景类型 | 建议阈值 | 上线方式 |
|---|---|---|
| 内部辅助建议 | 核心任务成功率 80% 以上,关键字段完整。 | 可灰度上线,保留人工确认。 |
| 客户交付材料 | 成功率 90% 以上,风险点必须命中。 | 必须人工复核后交付。 |
| 自动写入业务系统 | 成功率 95% 以上,异常可回退,日志完整。 | 先小范围灰度,再逐步放量。 |
| 高敏数据或合规场景 | 敏感信息拦截和权限检查必须稳定。 | 不建议全自动,必须保留审批。 |
可复制验收表
工作流名称:
负责人:
上线范围:
测试日期:
一、测试集
- 正常样例数量:
- 边界样例数量:
- 风险样例数量:
- 失败样例数量:
二、质量指标
- 任务成功率:
- 输出完整率:
- 格式合规率:
- 风险命中率:
- 平均人工修改比例:
三、风险控制
- 必须人工复核条件:
- 异常回退方式:
- 敏感信息处理方式:
- 下游系统写入前校验:
四、日志与复盘
- 是否记录输入:
- 是否记录模型和工具调用:
- 是否记录检索材料:
- 是否记录人工修改:
五、上线建议
- 可以上线
- 灰度上线
- 继续打磨
- 暂停上线
备注: