代码不再稀缺之后

风格参考:Ben Thompson(Stratechery)的战略分析框架 + Paul Graham 的反直觉开头与金句技巧。一条主线贯穿全文,短段落,强逻辑链,面向技术决策者。

一个被忽略的数字

Anthropic 最近发布的 2026 Agentic Coding 趋势报告里,有一个数字比所有预测都重要,但几乎没人讨论它。

开发者在约 60% 的日常工作中使用 AI,却只能把 0–20% 的任务“完全委派”给 AI。

大多数人读到这里会觉得:“说明 AI 还不够强,等模型再迭代几轮就好了。”

我认为这个解读完全搞反了。

这个数字揭示的不是 AI 的能力不足,而是一种全新的协作范式正在形成——而这种范式的核心瓶颈,从来就不是模型的智商。60% 的使用率说明 AI 已经深度嵌入了工程师的日常;0–20% 的完全委派率说明人类的判断、监督和验收是不可消除的。两个数字合在一起,画出的不是一条“AI 越来越强最终取代人”的直线,而是一条“人与 AI 的协作界面不断被重新设计”的曲线。

换句话说,2026 年的主战场不是“模型有多强”,而是“协作如何被工程化”。

这正是这份报告真正在说的事情。

稀缺性的转移

让我从一个更基本的问题开始:软件工程里,什么东西是稀缺的?

在过去四十年里,答案很简单——代码。写代码的人稀缺,写得好的人更稀缺,能在复杂系统里写对的人极度稀缺。整个行业围绕这种稀缺性建立了它的定价体系、职级体系和流程体系:程序员按能力分级,薪酬按产出定价,项目管理围绕“如何让有限的人力产出足够多的代码”来设计。

2025 年开始,这个等式被打破了。

报告描述的图景很清晰:coding agents 从实验工具走向了能覆盖大量实现环节的生产系统——写代码、写测试、调试、导航复杂代码库、生成文档。代码的供给侧发生了结构性变化。一个工程师配合 agent,产出量可以是以前的数倍。TELUS 的案例显示:工程代码交付提速 30%,节省 50 万小时以上,平均每次 AI 交互节省 40 分钟。更重要的是,约 27% 的 AI 辅助工作属于“以前根本不会做”的事情。

当产出的供给侧被彻底改写,稀缺性就会发生转移。

代码不再是稀缺资源。“可靠的变更”才是。

什么是“可靠的变更”?它不只是“代码能跑”,而是:这段变更解决了正确的问题、通过了充分的验证、不会在集成时引发回归、不会在生产环境中造成安全漏洞、并且在需要时可以被安全回滚。

这个定义本身就暗示了一整套系统能力——需求规格化、自动测试、代码审查、灰度发布、监控告警、审计追踪。这些能力以前是“加分项”,在代码产出爆炸的时代,它们变成了“生死线”。

如果用一句话概括这份报告的中心命题:软件开发正在从“以写代码为中心”转向“以编排写代码的智能体为中心”,同时必须保留人类的判断、监督与协作来保证质量。

理解了“稀缺性转移”这个底层逻辑,报告里的八个趋势就不再是互不相关的预测清单——它们是同一个结构性变化在不同层面的展开。

当实现被折叠:三种新瓶颈

报告的第一个趋势是 SDLC 被“压缩并重排”:传统的开发周期从数周压缩到数小时,agent 驱动实现 + 自动测试 + 内联文档会把线性流程变成高频反馈回路。报告甚至认为这是一次堪比 GUI 出现的交互层变革。

这个判断大方向上没问题,但它容易让人产生一个错觉:“一切都变快了”。

事实上,当实现被折叠后,变快的只是其中一段。整个链条上会浮现出三种新瓶颈,而它们恰好都不是 AI 擅长解决的:

第一种:意图延迟。 需求表达不清,约束没有被结构化。Agent 再强也没用——它只会“做得很快但做错”。你可以在几分钟内拿到一个完整的功能实现,但如果需求本身是模糊的,你拿到的只是一个高速飞向错误方向的产出。

第二种:验收延迟。 代码产出爆炸,但人类 review、产品验收、合规审批的带宽没有同步增长。这会形成一个经典的排队论问题:上游的生产速率超过下游的处理速率,队列无限增长,lead time 反而变长。

第三种:集成延迟。 多个 agent 并行工作、多条变更同时落地时,冲突、回归和不一致性问题会急剧上升。这不是新问题——大型团队一直面对它——但 agent 把它加速了一个数量级。

所以,真正的工程升级不是“让 AI 写更多”,而是把验收做成系统。你可以叫它 TDD、contract tests、policy-as-code,但本质都是一件事:把口头标准变成可机器验证的门禁。 只有当“验收”被自动化到接近“实现”的速度时,压缩才是真正有效的。

多智能体不是“更多算力”,是一种新的组织形式

报告的第二个趋势预测:2026 年组织会从单智能体走向“多智能体团队”。

如果你把这个趋势理解为“多开几个窗口同时跑”,你就低估了它的含义。

多智能体编排解决的核心问题不是“一个模型上下文不够大”。它解决的是两个更工程化的问题:

第一,把大任务拆成可并行、可验证的小单元。 每个 agent 有独立的上下文和职责边界。这本质上就是微服务思想在 AI 工作流中的复现——你把一个巨型任务分解成多个有明确输入输出的小服务,每个服务可以独立测试、独立失败、独立恢复。

第二,把协作从“聊天式”升级为“协议式”。 每个 agent 的输入格式、输出格式、完成定义、失败回退策略和冲突处理方式,都需要被标准化。这就是分布式系统里的 API 契约和服务编排——只不过现在“服务”碰巧是一群 AI 智能体。

Fountain 的案例很说明问题:他们用分层多智能体编排来处理筛选、入职、转化等环节,把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。这里面真正起作用的不是“AI 更聪明了”,而是“任务被正确地拆解和编排了”。

但这里有一个反直觉的推论值得警惕:

并行越强,集成与一致性越难。

这跟分布式系统的经验完全一致。当你从单体服务走向微服务时,你获得了可伸缩性,但你也引入了分布式事务、数据一致性、服务发现、链路追踪等一整套新的复杂度。多智能体编排也一样——你更需要接口契约、变更隔离、自动集成测试、特性开关和灰度发布这些传统工程纪律。否则,你只是把“人肉并发”的痛点搬到了 AI 上。

长跑智能体把“项目管理”变成“运行时治理”

报告预测 agent 的任务跨度会从分钟 → 小时(2025)→ 天级甚至周级(2026)。Rakuten 的案例印证了这一点:他们让 Claude Code 在一个千万级代码行的开源库里自主运行 7 小时完成复杂任务,达到 99.9% 数值精度。

这不再是“工具”。这是一个持续运行的生产系统。

一个跑几天的 agent 会产生大量变更、分支、PR、测试结果、失败记录和重试。它需要状态管理——记忆、计划、上下文的持久化。它需要审计与追踪——每一步决策都要可追溯。它需要成本控制——算力和 API 调用是有预算的。它需要故障隔离——一次错误不能污染整个运行链路。

换句话说,你需要像运维一个生产服务一样运维你的 agent。

我认为这会催生一个新的系统层:Agent Runtime(智能体运行平台)。 它的职责和 CI/CD 平台类似,但维度更多:谁能启动长跑任务?资源额度是多少?失败重试策略是什么?产出的代码如何被分桶 review?风险变更如何自动升级给人?

报告还提到一个很有想象力的推论:当 agent 能自主长期工作后,过去 ROI 不够的项目突然变得可行——积累多年的技术债可能被 agent 通过 backlog 系统性消除,创业者能在“几天”而非“几个月”从想法到部署。

这很诱人,但前提是你有能力治理这些长跑过程。没有治理的长跑 agent,就像没有项目管理的马拉松——跑得越久,偏得越远。

监督规模化的核心矛盾

报告指出 2026 年一个最有价值的能力进化:agent 学会了“什么时候该求助”,人类只在必要时进入回路。AI 审查 AI 产出将成为标准配置——检查安全漏洞、架构一致性和质量问题,避免人类被海量产出淹没。

这个方向是对的。当代码产出增长 5 倍但 review 人力不增长时,你只有两个选择:要么降低 review 标准(然后在线上付出代价),要么用 AI 帮你做第一轮筛选。显然后者更合理。

但“AI 审 AI”有一个结构性风险,报告没有展开讨论:同源错误。

如果生成代码的模型和审查代码的模型来自相似的训练数据、使用相似的推理模式,它们可能会犯相关性很高的错误——一起忽略同一个边界条件,一起误判同一个安全假设。这就像让同一所学校毕业的两个人互相批改试卷——他们大概率有相同的知识盲区。

所以监督规模化不能仅靠“再来一个 AI”。它需要独立证据链

  • 单元测试、集成测试、端到端测试(不是 AI 说“这段代码没问题”,而是测试跑过了)
  • 静态分析和类型检查(不是 AI 判断“这里类型安全”,而是编译器保证了)
  • 依赖扫描和许可证审计(不是 AI 觉得“没有安全漏洞”,而是扫描器确认了)
  • 运行时监控和告警(不是 AI 预测“不会出错”,而是线上数据证明了)
  • 灰度发布和自动回滚(不是 AI 承诺“没有回归”,而是灰度流量验证了)

AI 可以帮你写这些证据链——这是它最好的用途之一。但最终,你必须用事实约束智能体,而不是用另一个智能体的口头保证。

“民主化”的两条路

报告预测 agentic coding 会扩展到非工程人群:安全人员、运维、设计师、数据分析师都能用代码解决问题;更远一步,销售、市场、法务、运营等非技术团队也能自己构建自动化方案。

Zapier 的案例很典型:全员推动 agent 使用,设计团队在客户访谈中实时做原型,组织 AI 采用率达到 89%。Anthropic 法务团队自己用 Claude 把市场审核从 2–3 天缩短到 24 小时——构建工具的人是没有编码经验的律师。

这是一个真实的趋势。但它会沿两条截然不同的路径演化:

好的路径: 企业提供统一平台——身份、权限、审计、数据访问、模板、发布管道——业务团队在护栏内自助创新。工程团队从“交付中心”变成“平台与治理中心”,提供可复用的组件、安全边界和发布能力。

坏的路径: 各部门各搞一套脚本、机器人和自动化,数据权限混乱,没人负责维护,安全漏洞藏在各个角落。这就是 Shadow IT 在 AI 时代的加速版。

两条路的分叉点在于一个原则:把能力下放,把风险上收。 能力让更多人能做;风险必须由平台化治理去兜底。做不到这一点的组织,“民主化”带来的治理成本会远超它释放的生产力。

更多产出 ≠ 更多价值

报告提出生产率提升的核心发现:工程师“时间净减少”,但“产出量净增加更大”——生产率主要来自“做了更多”,而不仅是“同样的事更快”。27% 的 AI 辅助工作是“否则根本不会做”的事情:扩展项目、交互面板、探索性工作、修各种小痛点。

这是好事。但它有一个二阶效应值得警惕。

当“额外产出”变得几乎免费,组织会很自然地陷入范围膨胀——“反正很快,顺手加个功能吧”。每个单独的“顺手加一下”都合理,但累积起来会把系统复杂度推到一个你的测试、监控和运维能力跟不上的水平。

这就是为什么你需要“产出治理”:

  • 给团队设定变更预算(不是限制产出,而是确保每一批变更都经过了充分验证)
  • 用可量化指标守住质量底线:缺陷率、回滚率、变更失败率、上线 lead time、线上事故率
  • 定期评估系统复杂度,确保它没有超出团队的理解和控制能力

更多产出是工具,更多价值是系统。 前者 AI 可以给你,后者需要你自己建。

安全:把 Agent 当作一种新身份

报告的最后一个趋势是安全。它的判断很准确:agentic coding 在安全上是“双向改变”——AI 让每个工程师都能做安全审查,但同样的能力也帮助攻击者规模化攻击。

但报告没有点透的一层是:大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。这是一个危险的认知偏差。

一个 coding agent 能调用工具、读写代码、触达数据、触发部署。它是一个新的身份主体(principal),就像一个新入职的员工一样,需要被纳入安全架构。

这意味着你的安全体系要回答一系列新问题:

  • 这个 agent 能访问哪些仓库、哪些环境、哪些数据?
  • 最小权限怎么设计?
  • 密钥与敏感信息如何隔离与审计?
  • 它能不能直接部署到生产?如果能,门禁和回滚怎么做?
  • 发生错误或滥用时,责任归属和追踪怎么做?

如果你的安全模型里没有“agent”这个角色,你就在裸奔——只是暂时还没出事。

一句话策略

如果要把这份报告翻译成一句可执行的组织策略:

建立三层体系:规格清晰化 → 执行自动化 → 质量与安全可验证化。让智能体负责产出,让系统负责约束,让人类负责方向与裁决。

展开来说,这就是一个“Agentic Engineering OS”:

意图层: PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这是整个系统的输入质量,垃圾进垃圾出。

执行层: 多智能体编排、工具调用、长跑任务管理。这是 AI 最擅长的领域,放手让它干。

保证层: 测试、静态分析、监控、审计、安全门禁、回滚机制、事后复盘。这是让整个系统可信赖的基础,也是人类注意力应该聚焦的地方。

报告最后的建议压缩成了四个优先方向:掌握多智能体协作、用 AI 自动化 review、把 agentic coding 扩展到工程以外、从最早期就把安全嵌入。这四个方向都对,但它们共享同一个前提——你必须先建好保证层。

没有保证层的 agentic coding,就像没有刹车的跑车。油门越大,死得越快。

尾声

回到开头那个被忽略的数字:60% 的使用率,0–20% 的完全委派率。

很多人看这个数字觉得“AI 还不行”。我看这个数字觉得“这才刚开始”。

它告诉你的是:AI 已经深入到了工程实践的核心,但人的判断力不是瓶颈,而是基础设施。不是等 AI 更强之后人就可以退出回路,而是人的参与方式会持续演化——从写代码,到审代码,到设计让 agent 写代码、让系统审代码的规则。

2026 年赢的不是“写得更快”的团队,而是把协作与质量变成可复制的系统能力的团队。

前者只需要买更好的工具。后者需要重新设计你的工程体系。

这就是为什么这份报告的标题是“Agentic Coding”——不是“AI Coding”。区别在于:AI coding 是用 AI 写代码;agentic coding 是把 AI 当作一个有自主性的参与者来编排。前者是工具升级,后者是范式变迁。

范式变迁不会等你准备好。但好消息是:你需要做的第一步并不复杂——把你团队最重要的验收标准写成可执行的测试,然后交给 agent 去跑。

从这一步开始,你就已经站在了新范式的这一边。