从写代码到编排系统：我从 Peter Steinberger 身上学到的 AI Coding 方法论

起点

Peter Steinberger 加入了 OpenAI。OpenClaw 转入基金会。

这不是新闻。这是信号。

信号是——软件的瓶颈已经换了位置，而大多数人还在旧瓶颈上卷。

下面是我从这件事里抽出来的所有箴言。每一条都可以单独读，也可以合起来读。

第一条：瓶颈换了位置

AI coding 的瓶颈不是生成，是同步。

过去，你的时间花在“把想法变成代码”。
现在，模型替你花掉这段时间。
结果是，你的时间必须花在“让多个版本的真实保持一致”。

同步的对象包括：需求和实现、实现和测试、测试和设计、多个 agent 的分支、生产环境和假设。

构建便宜了，同步就贵了。
贵的地方，才是你该去的地方。

第二条：返工不是模型的问题

你发现 AI 总在返工。你怪模型。

错了。

如果你的 workflow 总在返工，多半不是模型不够强，是同步机制太差。

返工是成本溢出的信号。成本溢出的那一层，就是你该修的那一层。

第三条：你不是 programmer，你是 orchestrator

会写代码，曾经是一张长期饭票。

现在不是了。

“会不会写代码”正在变成一个底层问题。
“能不能把问题组织成可被智能系统解决的系统”，才是高层问题。

低层问题会被模型越做越便宜。
高层问题会因为模型变强而越来越贵。

把自己定义在哪一层，决定了你十年后的价格。

第四条：Builder 这个词

Peter 用了一个词：builders。

Builder 不是程序员。
Builder 是那些有问题要解决、并且能动手让结果落地的人。

这个世界缺的从来不是写代码的人，缺的是能把一个模糊愿望压成可执行系统的人。

Builder 不一定会写代码，但 builder 一定懂得如何组织问题。
会写代码的人如果不会组织问题，就会被便宜的替代品追上。

第五条：Spec 是控制面板，不是说明书

文档过去是写给人看的。

现在不是了。

Spec 是 agent 的控制面板。
好的 spec 不是写得多，是约束得准。

它告诉 agent 哪里可以发挥、哪里必须保守；哪里可以重构、哪里只能局部修复；哪些测试必须先写、哪些行为必须保持兼容。

spec 的真正价值是——让 agent 不要乱长。

一个 agent 最大的危险不是它做不到，而是它做得太多。
你不约束它，它就给你长出一个你不需要的系统。

第六条：响应时间是幻觉

你喜欢那些“上来就写”的 agent。

你被骗了。

响应时间是幻觉。收敛时间才是真的。

收敛时间 = 从任务被提出，到可以放心 merge，一共走了多少轮。

它的内部参数包括：首次通过率、返工轮数、误改范围、你兜底花掉的脑力。

一个 agent 第一轮飞快但引入一堆问题——它不快。
一个 agent 先读代码、先问问题、先出 plan，最后一次通过——它才真快。

你要优化的单位，从 response time 换成 convergence time。

这件事一换，很多选择会反过来。

第七条：前期慢一点是一种投资

慢慢读代码、先写 plan、先写测试——
这些不是拖延。

这是用前期的同步成本，换取后期的返工减免。

效率这件事，本质是一种利率问题。
你愿意用多少前期时间，换取多少后期的稳定。

愿意前付、眼界拉长的人，永远赢愿意即时满足的人。

第八条：带 agent 和带团队是一回事

从 programmer 到 orchestrator，心态变了。

你从执行者变成了管理者。

带 agent 的第一课和带人一样——放弃“它必须按我的方式写”。

契约满足、行为兼容、关键路径有测试覆盖、可观测、可回滚——
如果这些都过关，它不必长得像你亲手写的。

手工时代的标准是“代码是否符合我的手感”。
agent 时代的标准是“系统是否可控地收敛”。

这不是降低标准，是切换标准。

第九条：审美有价值，但不是首要价值

你会忍不住要求 agent“写得像你”。

这种冲动很自然。
但它是一种陷阱。

如果你把时间花在审美上，你就没时间花在风险上。

审美无限优化，边际收益递减。
风险一旦失控，会直接清零。

在 agent 时代，时间要先分配给可能让你清零的地方，再分配给让你舒服的地方。

第十条：安全是产品，不是补丁

chatbot 只是说话。
agent 会动手。

动手的时候，它代表的是你的账号、权限、生产环境。

这意味着——安全不再是附属问题。安全就是产品。

凡是让 agent 改代码、动配置、连生产、调外部 API，都必须默认加一层安全原语：
最小权限、dry-run、二次确认、敏感信息隔离、diff trace、rollback、kill switch。

这些不是“高级选项”。
它们是默认设施。

第十一条：强不如稳

兴奋期里，大家追“能力最强的 agent”。

周期长了，你会发现——

真正长期被托付的 agent，不是能力最强的，而是行为可审计、权限可限制、错误可止血、影响范围可控制的。

强在短期赢注意力，稳在长期赢信任。
信任才是复利。

第十二条：失败归因给系统，不归因给人格

你会失败，很多次。

模型跑偏。
上下文没读全。
方案过度设计。
测试没覆盖。
改动范围失控。

每一次都让你想：我是不是不行。

停。

不是你不行，也不是模型不行。是你的系统不行。

harness 不够好。
任务边界不够清楚。
验证机制不够强。
同步流程有洞。

这种归因方式的价值在于——它给你下一步该改什么。
自我怀疑给不了这个。

第十三条：每次失败都要换来系统的一次小增量

Peter 说 builder 要更 playful。

playful 不是“随便玩”。

playful 是允许失败，但要求每次失败都能被系统吸收成增量。

kickoff 模板更准了。
测试介入更早了。
rollback 更显式了。
上下文收集更合理了。

复利就是这么来的。
不做这件事的人，每一次失败都是一次纯损失。
做这件事的人，每一次失败都是一次未来的利息。

第十四条：能力是在探索里长出来的

Peter 在 TechCrunch 的采访里说，他一开始也没有完整计划，很多东西是在探索中长出来的。

所以：

不要期待自己第一天就是专家。
AI coding 是一门乐器，不是一句咒语。

咒语靠记忆。
乐器靠练习。
你要练的是手感、节奏、判断力，不是某一句 prompt。

第十五条：先同步，再生成

这是全部箴言里最重要的一条。

先同步，再生成。

不要把 agent 当成一个马上开写的实习生。
把它放进一个有目标、有边界、有验证、有回滚的系统里。

把这六个字刻进流程，你就已经拉开了和大多数 AI coding 使用者的差距。

第十六条：Kickoff 模板

把前面十五条压成一张表：

任务挡位：
- 探索 / 设计 / 实现 / 修复 / 上线

任务目标：
- 这次必须完成什么
- 成功之后，用户或系统会看到什么变化

明确边界：
- 这次不做什么
- 哪些文件、接口、表结构、状态机禁止擅自扩展
- 哪些行为必须保持兼容

执行要求：
- 先读哪些上下文
- 是否必须先出 plan
- 是否必须先写测试
- 哪些动作需要二次确认后再执行

验证标准：
- 必须通过哪些测试、lint、build、smoke
- 必须提供哪些 diff、日志、风险说明
- 是否需要 rollback plan 或 feature flag

输出格式：
- 先给结论
- 再给变更点
- 再给风险点
- 最后给验证证据

这不是表格。
这是一套被压缩过的方法论。

第十七条：两种价值曲线

两种自我定义，两条未来曲线。

“我是一个会写代码的工程师”——这条曲线的斜率会越来越平。
“我是一个能把问题组织成可被智能系统解决的人”——这条曲线的斜率会越来越陡。

选哪一条，决定了你五年后的定价。

第十八条：新价值公式

用一个公式收尾：

价值 = 问题定义力 × 上下文组织力 × 边界设置力 × 验证严格度 × 风险控制力 × 流程沉淀力

这六个变量全部是乘法关系。
任何一项趋近零，整体趋近零。

过去，公式里可能只有一项是“写代码速度”。
现在，写代码速度已经不再是独立变量了——它被模型吸收进了环境常数。
你要训练的是其他六项。

过去训练的是手速。现在训练的是结构感。

第十九条：新范式的一句话

把这篇文章压缩成一句话，就是这一句——

软件生产正在从手工艺，变成系统编排。

旧范式里，程序员的价值来自亲手写代码。
新范式里，价值来自定义问题、组织上下文、设置约束、分配执行、验证结果、控制风险、沉淀流程。

前者的护城河在塌方。
后者的护城河在隆起。

第二十条：结束语

Peter Steinberger 给我的全部启发，能抄到笔记本上的，只有两行。

未来最有价值的人，不是写代码最快的人，
而是最会把问题组织成可执行、可验证、可收敛系统的人。

这两行不是结论，是起点。

从今天开始，每一次任务——先想边界，再想步骤；先想验证，再想实现；先想回滚，再想上线；先想“如何让智能系统稳定产出”，再想“我要自己动手做什么”。

你就已经在训练一条在未来十年复利最高的肌肉了。

剩下的，交给时间。

李文业的思考笔记