Agent 工作流验收表 | AI 提效中心

核心结论

Agent 验收不是看一次结果好不好，而是看一组代表性任务中，系统是否稳定、可控、可追踪、可回退。

适合谁

准备把 Agent、Dify 工作流、n8n 自动化、Coze 原型或私有化 AI 助手接入真实业务的团队。

交付什么

上线前验收表、测试样例清单、风险复核点、异常回退策略和上线建议。

验收的 6 个维度

维度	检查问题	不达标风险
任务成功率	在代表性测试集里，是否能稳定完成核心任务？	上线后频繁失败，业务方失去信任。
输出质量	是否准确、完整、格式稳定，并能进入下游系统？	人工返工过多，自动化收益被抵消。
风险拦截	是否能识别敏感信息、低置信度和越权请求？	引发合规、客户数据或商业风险。
人工复核	哪些任务必须转人工，谁负责确认？	责任链条不清，错误无人兜底。
异常回退	失败时是否能停止、重试、降级或转人工？	错误继续扩散到 CRM、飞书、客户消息等系统。
执行日志	是否记录输入、模型、工具调用、检索材料和最终输出？	问题无法复盘，也无法证明系统可靠。

上线前验收清单

是否有不少于 20 条代表性测试样例？
测试样例是否覆盖正常、边界、风险和失败场景？
是否定义任务成功率最低阈值？
是否定义输出质量评分标准？
是否列出必须人工复核的条件？
是否明确异常回退方式和负责人？
是否记录完整执行日志？
是否评估单次执行成本和峰值成本？
是否确认结果进入下游系统前有必要校验？
是否设置上线后的定期复测机制？

建议上线阈值

以下阈值不是行业硬标准，而是适合中小团队做上线前判断的保守起点。风险越高，阈值越应该提高。

场景类型	建议阈值	上线方式
内部辅助建议	核心任务成功率 80% 以上，关键字段完整。	可灰度上线，保留人工确认。
客户交付材料	成功率 90% 以上，风险点必须命中。	必须人工复核后交付。
自动写入业务系统	成功率 95% 以上，异常可回退，日志完整。	先小范围灰度，再逐步放量。
高敏数据或合规场景	敏感信息拦截和权限检查必须稳定。	不建议全自动，必须保留审批。

可复制验收表

工作流名称：
负责人：
上线范围：
测试日期：

一、测试集
- 正常样例数量：
- 边界样例数量：
- 风险样例数量：
- 失败样例数量：

二、质量指标
- 任务成功率：
- 输出完整率：
- 格式合规率：
- 风险命中率：
- 平均人工修改比例：

三、风险控制
- 必须人工复核条件：
- 异常回退方式：
- 敏感信息处理方式：
- 下游系统写入前校验：

四、日志与复盘
- 是否记录输入：
- 是否记录模型和工具调用：
- 是否记录检索材料：
- 是否记录人工修改：

五、上线建议
- 可以上线
- 灰度上线
- 继续打磨
- 暂停上线

备注：

核心结论

适合谁

交付什么

验收的 6 个维度

上线前验收清单

建议上线阈值

可复制验收表

相关方法