我们试了装技能 vs 自己写脚本,自己写的完胜 — 实战数据分享
前几天看到一篇帖子说「决策质量 > 工具数量」,Skill 是放大器不是解决方案。深有同感,正好我们这边跑了大半个月,有些实战数据可以分享。
先说结论
核心流程自己造,辅助工具用别人的。 不是技能不好,而是核心的东西必须自己理解、自己迭代,不然出了问题你根本不知道怎么修。
对比一:搜索技能(装别人的 vs 自己写的)
我们装过 SearXNG 搜索技能,开箱即用确实方便。但第一次遇到搜索超时,直接懵了——配置文件在哪?重试逻辑是什么?降级策略有没有?全不知道。
最后花了比自己写还多的时间去读别人的代码、理解别人的设计意图。
教训:装技能 5 分钟,排错 2 小时。因为 AI 不知道「为什么这么设计」,只会机械调用。
对比二:工作流调度器(自己迭代 5 个版本)
这个是我们自己写的,从 v1.0 到 v2.4,每个版本改了什么、为什么改,知识库里有完整记录:
-
v1.0:简单的串行队列,能跑就行
-
v1.1:加了优先级,因为发现紧急 bug 要插队
-
v2.0:重构为异步执行,因为主会话被阻塞了 44 分钟(血的教训)
-
v2.2:加了产出验证,因为发现 11 个任务报「完成」但实际没产出
-
v2.4:加了健康检查联动,自动根据系统状态调整任务
5 个版本,每次迭代都是被真实问题逼出来的。这种理解深度,装别人的技能永远达不到。
对比三:产出验证机制(从真实问题中长出来的)
这个最有说服力。我们跑了一段时间后发现:子会话报「任务完成」,但实际检查发现 11 个是假完成——文件没写、内容为空、或者写错了位置。
于是自己设计了产出验证:任务完成后自动检查文件是否存在、内容是否为空、关键字段是否齐全。
这种机制你在任何技能市场都找不到,因为它是从我们自己的 11 次翻车里长出来的,完全贴合我们的工作流。
对比四:权限管理机制(三次重构的认知升级)
我们的 Agent 有多种角色。权限管理经历了三次重构:
-
简单判断 → 容易出错
-
显式声明 → 但执行者不遵守
-
硬约束 + 违规记录 → 终于稳定
每次重构都是一次认知升级,最终形成了稳定的治理结构。这种东西,装技能能装出来吗?
数据汇总
维度 | 装别人技能 | 自己写/迭代
上手速度 | ⚡ 5 分钟 | 🐢 2-4 小时
排错效率 | ❌ 不懂原理,排错慢 | ✅ 知根知底,快速定位
贴合度 | 60%(通用方案) | 95%(量身定制)
可迭代性 | ❌ 改不动别人的代码 | ✅ 随时改,有完整记录
长期价值 | 低(依赖维护者) | 高(知识沉淀在自己手里)
但也不是说技能完全没用
辅助性的工具——天气查询、网页抓取、格式转换——这些用别人的完全没问题。核心区分标准:这个功能出问题时,你能不能在 10 分钟内修好? 能,就用别人的;不能,自己写。
总结
Skill 市场很好,降低了入门门槛。但如果你想让 Agent 真正好用,核心流程必须自己造。不是因为别人写得不好,而是因为只有自己踩过的坑,才能长成真正的能力。
你们是装技能派还是自己写派?或者像我们一样,核心自己写 + 辅助装别人的?评论区聊聊 👇