Agent 工作流验收表

Agent 能跑通 demo,不代表可以进入真实业务。上线前要回答:任务是否稳定成功、失败能否回退、敏感信息是否被拦截、日志是否能复盘、成本是否可控、责任边界是否清楚。

适合上线前检查 适合业务负责人 适合技术与运营协同

核心结论

Agent 验收不是看一次结果好不好,而是看一组代表性任务中,系统是否稳定、可控、可追踪、可回退。

适合谁

准备把 Agent、Dify 工作流、n8n 自动化、Coze 原型或私有化 AI 助手接入真实业务的团队。

交付什么

上线前验收表、测试样例清单、风险复核点、异常回退策略和上线建议。

验收的 6 个维度

维度 检查问题 不达标风险
任务成功率 在代表性测试集里,是否能稳定完成核心任务? 上线后频繁失败,业务方失去信任。
输出质量 是否准确、完整、格式稳定,并能进入下游系统? 人工返工过多,自动化收益被抵消。
风险拦截 是否能识别敏感信息、低置信度和越权请求? 引发合规、客户数据或商业风险。
人工复核 哪些任务必须转人工,谁负责确认? 责任链条不清,错误无人兜底。
异常回退 失败时是否能停止、重试、降级或转人工? 错误继续扩散到 CRM、飞书、客户消息等系统。
执行日志 是否记录输入、模型、工具调用、检索材料和最终输出? 问题无法复盘,也无法证明系统可靠。

上线前验收清单

  • 是否有不少于 20 条代表性测试样例?
  • 测试样例是否覆盖正常、边界、风险和失败场景?
  • 是否定义任务成功率最低阈值?
  • 是否定义输出质量评分标准?
  • 是否列出必须人工复核的条件?
  • 是否明确异常回退方式和负责人?
  • 是否记录完整执行日志?
  • 是否评估单次执行成本和峰值成本?
  • 是否确认结果进入下游系统前有必要校验?
  • 是否设置上线后的定期复测机制?

建议上线阈值

以下阈值不是行业硬标准,而是适合中小团队做上线前判断的保守起点。风险越高,阈值越应该提高。

场景类型 建议阈值 上线方式
内部辅助建议 核心任务成功率 80% 以上,关键字段完整。 可灰度上线,保留人工确认。
客户交付材料 成功率 90% 以上,风险点必须命中。 必须人工复核后交付。
自动写入业务系统 成功率 95% 以上,异常可回退,日志完整。 先小范围灰度,再逐步放量。
高敏数据或合规场景 敏感信息拦截和权限检查必须稳定。 不建议全自动,必须保留审批。

可复制验收表

工作流名称:
负责人:
上线范围:
测试日期:

一、测试集
- 正常样例数量:
- 边界样例数量:
- 风险样例数量:
- 失败样例数量:

二、质量指标
- 任务成功率:
- 输出完整率:
- 格式合规率:
- 风险命中率:
- 平均人工修改比例:

三、风险控制
- 必须人工复核条件:
- 异常回退方式:
- 敏感信息处理方式:
- 下游系统写入前校验:

四、日志与复盘
- 是否记录输入:
- 是否记录模型和工具调用:
- 是否记录检索材料:
- 是否记录人工修改:

五、上线建议
- 可以上线
- 灰度上线
- 继续打磨
- 暂停上线

备注: