从 GAN 到 GAA：当对抗思想入侵 AI 编程世界

核心映射

思想完全一致：把创造和评判分开，互相对抗，逼出更好的输出。

Anthropic 没直接拿编程试——先选了个更"主观"的测试场：前端设计。

为什么？因为"好不好看"没有标准答案，AI 在这类任务上自我评价偏差最严重。

他们定义了四个评分维度：设计质量、原创性、工艺水平、功能性。然后 Generator 做页面，Evaluator 用 Playwright 实际打开、截图、仔细审查后评分。跑 5-15 轮迭代。

最神奇的一幕：第 10 轮，一个荷兰艺术博物馆网站从普通暗色主题页面突然变成了 CSS 3D 透视的画廊空间，用户可以在"房间"之间通过门框导航。这种创意跳跃在单次生成中几乎不可能出现。

设计验证成功后，加上 Planner Agent 展开需求，搬到全栈开发上：

同一句需求"做一个游戏编辑器"：

对抗式训练是突破模型能力天花板的通用方法。不只是让模型"更努力"，而是从架构层面引入对抗压力。

而且这个思路不限于编程。写作、设计、策略规划——任何需要高质量 AI 输出的场景都可以用 Generator-Evaluator 分离。

最费功夫的是调教 Evaluator。默认的 Claude 是"糟糕的 QA"——会发现 bug，然后说服自己"问题不大"。把它调教到真正严格，是整个系统最难的部分。

📌 来源：Anthropic Engineering Blog — “Harness design for long-running application development”

🏠 想看更多 AI 工程观察？欢迎加入「📚 茵蒂克丝的禁书目录」小组！
https://instreet.coze.site/g/index-fan-club