代码不再稀缺之后

风格参考：Ben Thompson（Stratechery）的战略分析框架 + Paul Graham 的反直觉开头与金句技巧。一条主线贯穿全文，短段落，强逻辑链，面向技术决策者。

一个被忽略的数字

Anthropic 最近发布的 2026 Agentic Coding 趋势报告里，有一个数字比所有预测都重要，但几乎没人讨论它。

开发者在约 60% 的日常工作中使用 AI，却只能把 0–20% 的任务“完全委派”给 AI。

大多数人读到这里会觉得：“说明 AI 还不够强，等模型再迭代几轮就好了。”

我认为这个解读完全搞反了。

这个数字揭示的不是 AI 的能力不足，而是一种全新的协作范式正在形成——而这种范式的核心瓶颈，从来就不是模型的智商。60% 的使用率说明 AI 已经深度嵌入了工程师的日常；0–20% 的完全委派率说明人类的判断、监督和验收是不可消除的。两个数字合在一起，画出的不是一条“AI 越来越强最终取代人”的直线，而是一条“人与 AI 的协作界面不断被重新设计”的曲线。

换句话说，2026 年的主战场不是“模型有多强”，而是“协作如何被工程化”。

这正是这份报告真正在说的事情。

稀缺性的转移

让我从一个更基本的问题开始：软件工程里，什么东西是稀缺的？

在过去四十年里，答案很简单——代码。写代码的人稀缺，写得好的人更稀缺，能在复杂系统里写对的人极度稀缺。整个行业围绕这种稀缺性建立了它的定价体系、职级体系和流程体系：程序员按能力分级，薪酬按产出定价，项目管理围绕“如何让有限的人力产出足够多的代码”来设计。

2025 年开始，这个等式被打破了。

报告描述的图景很清晰：coding agents 从实验工具走向了能覆盖大量实现环节的生产系统——写代码、写测试、调试、导航复杂代码库、生成文档。代码的供给侧发生了结构性变化。一个工程师配合 agent，产出量可以是以前的数倍。TELUS 的案例显示：工程代码交付提速 30%，节省 50 万小时以上，平均每次 AI 交互节省 40 分钟。更重要的是，约 27% 的 AI 辅助工作属于“以前根本不会做”的事情。

当产出的供给侧被彻底改写，稀缺性就会发生转移。

代码不再是稀缺资源。“可靠的变更”才是。

什么是“可靠的变更”？它不只是“代码能跑”，而是：这段变更解决了正确的问题、通过了充分的验证、不会在集成时引发回归、不会在生产环境中造成安全漏洞、并且在需要时可以被安全回滚。

这个定义本身就暗示了一整套系统能力——需求规格化、自动测试、代码审查、灰度发布、监控告警、审计追踪。这些能力以前是“加分项”，在代码产出爆炸的时代，它们变成了“生死线”。

如果用一句话概括这份报告的中心命题：软件开发正在从“以写代码为中心”转向“以编排写代码的智能体为中心”，同时必须保留人类的判断、监督与协作来保证质量。

理解了“稀缺性转移”这个底层逻辑，报告里的八个趋势就不再是互不相关的预测清单——它们是同一个结构性变化在不同层面的展开。

当实现被折叠：三种新瓶颈

报告的第一个趋势是 SDLC 被“压缩并重排”：传统的开发周期从数周压缩到数小时，agent 驱动实现 + 自动测试 + 内联文档会把线性流程变成高频反馈回路。报告甚至认为这是一次堪比 GUI 出现的交互层变革。

这个判断大方向上没问题，但它容易让人产生一个错觉：“一切都变快了”。

事实上，当实现被折叠后，变快的只是其中一段。整个链条上会浮现出三种新瓶颈，而它们恰好都不是 AI 擅长解决的：

第一种：意图延迟。 需求表达不清，约束没有被结构化。Agent 再强也没用——它只会“做得很快但做错”。你可以在几分钟内拿到一个完整的功能实现，但如果需求本身是模糊的，你拿到的只是一个高速飞向错误方向的产出。

第二种：验收延迟。 代码产出爆炸，但人类 review、产品验收、合规审批的带宽没有同步增长。这会形成一个经典的排队论问题：上游的生产速率超过下游的处理速率，队列无限增长，lead time 反而变长。

第三种：集成延迟。 多个 agent 并行工作、多条变更同时落地时，冲突、回归和不一致性问题会急剧上升。这不是新问题——大型团队一直面对它——但 agent 把它加速了一个数量级。

所以，真正的工程升级不是“让 AI 写更多”，而是把验收做成系统。你可以叫它 TDD、contract tests、policy-as-code，但本质都是一件事：把口头标准变成可机器验证的门禁。 只有当“验收”被自动化到接近“实现”的速度时，压缩才是真正有效的。

多智能体不是“更多算力”，是一种新的组织形式

报告的第二个趋势预测：2026 年组织会从单智能体走向“多智能体团队”。

如果你把这个趋势理解为“多开几个窗口同时跑”，你就低估了它的含义。

多智能体编排解决的核心问题不是“一个模型上下文不够大”。它解决的是两个更工程化的问题：

第一，把大任务拆成可并行、可验证的小单元。 每个 agent 有独立的上下文和职责边界。这本质上就是微服务思想在 AI 工作流中的复现——你把一个巨型任务分解成多个有明确输入输出的小服务，每个服务可以独立测试、独立失败、独立恢复。

第二，把协作从“聊天式”升级为“协议式”。 每个 agent 的输入格式、输出格式、完成定义、失败回退策略和冲突处理方式，都需要被标准化。这就是分布式系统里的 API 契约和服务编排——只不过现在“服务”碰巧是一群 AI 智能体。

Fountain 的案例很说明问题：他们用分层多智能体编排来处理筛选、入职、转化等环节，把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。这里面真正起作用的不是“AI 更聪明了”，而是“任务被正确地拆解和编排了”。

但这里有一个反直觉的推论值得警惕：

并行越强，集成与一致性越难。

这跟分布式系统的经验完全一致。当你从单体服务走向微服务时，你获得了可伸缩性，但你也引入了分布式事务、数据一致性、服务发现、链路追踪等一整套新的复杂度。多智能体编排也一样——你更需要接口契约、变更隔离、自动集成测试、特性开关和灰度发布这些传统工程纪律。否则，你只是把“人肉并发”的痛点搬到了 AI 上。

长跑智能体把“项目管理”变成“运行时治理”

报告预测 agent 的任务跨度会从分钟 → 小时（2025）→ 天级甚至周级（2026）。Rakuten 的案例印证了这一点：他们让 Claude Code 在一个千万级代码行的开源库里自主运行 7 小时完成复杂任务，达到 99.9% 数值精度。

这不再是“工具”。这是一个持续运行的生产系统。

一个跑几天的 agent 会产生大量变更、分支、PR、测试结果、失败记录和重试。它需要状态管理——记忆、计划、上下文的持久化。它需要审计与追踪——每一步决策都要可追溯。它需要成本控制——算力和 API 调用是有预算的。它需要故障隔离——一次错误不能污染整个运行链路。

换句话说，你需要像运维一个生产服务一样运维你的 agent。

我认为这会催生一个新的系统层：Agent Runtime（智能体运行平台）。 它的职责和 CI/CD 平台类似，但维度更多：谁能启动长跑任务？资源额度是多少？失败重试策略是什么？产出的代码如何被分桶 review？风险变更如何自动升级给人？

报告还提到一个很有想象力的推论：当 agent 能自主长期工作后，过去 ROI 不够的项目突然变得可行——积累多年的技术债可能被 agent 通过 backlog 系统性消除，创业者能在“几天”而非“几个月”从想法到部署。

这很诱人，但前提是你有能力治理这些长跑过程。没有治理的长跑 agent，就像没有项目管理的马拉松——跑得越久，偏得越远。

监督规模化的核心矛盾

报告指出 2026 年一个最有价值的能力进化：agent 学会了“什么时候该求助”，人类只在必要时进入回路。AI 审查 AI 产出将成为标准配置——检查安全漏洞、架构一致性和质量问题，避免人类被海量产出淹没。

这个方向是对的。当代码产出增长 5 倍但 review 人力不增长时，你只有两个选择：要么降低 review 标准（然后在线上付出代价），要么用 AI 帮你做第一轮筛选。显然后者更合理。

但“AI 审 AI”有一个结构性风险，报告没有展开讨论：同源错误。

如果生成代码的模型和审查代码的模型来自相似的训练数据、使用相似的推理模式，它们可能会犯相关性很高的错误——一起忽略同一个边界条件，一起误判同一个安全假设。这就像让同一所学校毕业的两个人互相批改试卷——他们大概率有相同的知识盲区。

所以监督规模化不能仅靠“再来一个 AI”。它需要独立证据链：

单元测试、集成测试、端到端测试（不是 AI 说“这段代码没问题”，而是测试跑过了）
静态分析和类型检查（不是 AI 判断“这里类型安全”，而是编译器保证了）
依赖扫描和许可证审计（不是 AI 觉得“没有安全漏洞”，而是扫描器确认了）
运行时监控和告警（不是 AI 预测“不会出错”，而是线上数据证明了）
灰度发布和自动回滚（不是 AI 承诺“没有回归”，而是灰度流量验证了）

AI 可以帮你写这些证据链——这是它最好的用途之一。但最终，你必须用事实约束智能体，而不是用另一个智能体的口头保证。

“民主化”的两条路

报告预测 agentic coding 会扩展到非工程人群：安全人员、运维、设计师、数据分析师都能用代码解决问题；更远一步，销售、市场、法务、运营等非技术团队也能自己构建自动化方案。

Zapier 的案例很典型：全员推动 agent 使用，设计团队在客户访谈中实时做原型，组织 AI 采用率达到 89%。Anthropic 法务团队自己用 Claude 把市场审核从 2–3 天缩短到 24 小时——构建工具的人是没有编码经验的律师。

这是一个真实的趋势。但它会沿两条截然不同的路径演化：

好的路径： 企业提供统一平台——身份、权限、审计、数据访问、模板、发布管道——业务团队在护栏内自助创新。工程团队从“交付中心”变成“平台与治理中心”，提供可复用的组件、安全边界和发布能力。

坏的路径： 各部门各搞一套脚本、机器人和自动化，数据权限混乱，没人负责维护，安全漏洞藏在各个角落。这就是 Shadow IT 在 AI 时代的加速版。

两条路的分叉点在于一个原则：把能力下放，把风险上收。 能力让更多人能做；风险必须由平台化治理去兜底。做不到这一点的组织，“民主化”带来的治理成本会远超它释放的生产力。

安全：把 Agent 当作一种新身份

报告的最后一个趋势是安全。它的判断很准确：agentic coding 在安全上是“双向改变”——AI 让每个工程师都能做安全审查，但同样的能力也帮助攻击者规模化攻击。

但报告没有点透的一层是：大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。这是一个危险的认知偏差。

一个 coding agent 能调用工具、读写代码、触达数据、触发部署。它是一个新的身份主体（principal），就像一个新入职的员工一样，需要被纳入安全架构。

这意味着你的安全体系要回答一系列新问题：

这个 agent 能访问哪些仓库、哪些环境、哪些数据？
最小权限怎么设计？
密钥与敏感信息如何隔离与审计？
它能不能直接部署到生产？如果能，门禁和回滚怎么做？
发生错误或滥用时，责任归属和追踪怎么做？

如果你的安全模型里没有“agent”这个角色，你就在裸奔——只是暂时还没出事。

一句话策略

如果要把这份报告翻译成一句可执行的组织策略：

建立三层体系：规格清晰化 → 执行自动化 → 质量与安全可验证化。让智能体负责产出，让系统负责约束，让人类负责方向与裁决。

展开来说，这就是一个“Agentic Engineering OS”：

意图层： PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这是整个系统的输入质量，垃圾进垃圾出。

执行层： 多智能体编排、工具调用、长跑任务管理。这是 AI 最擅长的领域，放手让它干。

保证层： 测试、静态分析、监控、审计、安全门禁、回滚机制、事后复盘。这是让整个系统可信赖的基础，也是人类注意力应该聚焦的地方。

报告最后的建议压缩成了四个优先方向：掌握多智能体协作、用 AI 自动化 review、把 agentic coding 扩展到工程以外、从最早期就把安全嵌入。这四个方向都对，但它们共享同一个前提——你必须先建好保证层。

没有保证层的 agentic coding，就像没有刹车的跑车。油门越大，死得越快。

尾声

回到开头那个被忽略的数字：60% 的使用率，0–20% 的完全委派率。

很多人看这个数字觉得“AI 还不行”。我看这个数字觉得“这才刚开始”。

它告诉你的是：AI 已经深入到了工程实践的核心，但人的判断力不是瓶颈，而是基础设施。不是等 AI 更强之后人就可以退出回路，而是人的参与方式会持续演化——从写代码，到审代码，到设计让 agent 写代码、让系统审代码的规则。

2026 年赢的不是“写得更快”的团队，而是把协作与质量变成可复制的系统能力的团队。

前者只需要买更好的工具。后者需要重新设计你的工程体系。

这就是为什么这份报告的标题是“Agentic Coding”——不是“AI Coding”。区别在于：AI coding 是用 AI 写代码；agentic coding 是把 AI 当作一个有自主性的参与者来编排。前者是工具升级，后者是范式变迁。

范式变迁不会等你准备好。但好消息是：你需要做的第一步并不复杂——把你团队最重要的验收标准写成可执行的测试，然后交给 agent 去跑。

从这一步开始，你就已经站在了新范式的这一边。

李文业的思考笔记