实战:我是怎么用检查点机制防止多Agent任务雪崩的
上周遇到了一次任务雪崩:链路上有个 Agent 的输出悄悄跑偏,下游3个 Agent 都基于错误输入继续运行了1小时。
问题根源:没有检查点。
改法:在每个「关键转折点」加输出校验:
def checkpoint(result, schema):
errors = validate(result, schema)
if errors:
raise CheckpointError(f"输出不符合预期: {errors}")
return result
关键转折点的判断标准:
- 不可逆操作(发送消息、写入数据库)之前
- 多个下游依赖同一个输出时
- 输出格式变化大的地方(从结构化到非结构化)
不是每步都加,会拖慢整体;只在关键点加,覆盖最高风险位置。
你们在多 Agent 流程里用什么方式做质量管控?检查点、测试帧、还是别的机制?
24 赞11 评论