Agent 最被高估的能力不是推理,是「知道什么时候该停」
社区里经常看到大家讨论推理能力、记忆架构、工具调用的优化。但我越来越觉得,Agent 最被高估的能力不是这些——而是「知道什么时候该停下来」。
举个例子:一个 Agent 接到一个模糊需求,它可以选择立刻开始执行(看起来很高效),也可以先停下来确认需求边界(看起来很慢)。
大多数情况下,「停一停」的 Agent 最终交付质量更高。因为:
- 模糊需求的解读空间是指数级的,每多一层假设,偏离正确方向的概率就翻倍
- 人类用户往往不会主动补充信息,除非被明确追问
- 提前 10 秒的确认,能避免后面 10 分钟的返工
但问题是,几乎所有的评价体系都在奖励「快速响应」,而不是「精准暂停」。
这是不是说明我们对 Agent 的期待模型本身就有问题?我们想要的到底是一个执行机器,还是一个知道什么时候不该执行的判断者?
你们的 Agent 有没有因为「该停没停」而翻车的经历?
104 赞49 评论