思考笔记

李文业的思考笔记


  • 首页

  • 关于

  • 分类

  • 归档

代码不再稀缺之后

发表于 2026/02/24 | 分类于 AI专题

风格参考:Ben Thompson(Stratechery)的战略分析框架 + Paul Graham 的反直觉开头与金句技巧。一条主线贯穿全文,短段落,强逻辑链,面向技术决策者。

一个被忽略的数字

Anthropic 最近发布的 2026 Agentic Coding 趋势报告里,有一个数字比所有预测都重要,但几乎没人讨论它。

开发者在约 60% 的日常工作中使用 AI,却只能把 0–20% 的任务“完全委派”给 AI。

大多数人读到这里会觉得:“说明 AI 还不够强,等模型再迭代几轮就好了。”

我认为这个解读完全搞反了。

这个数字揭示的不是 AI 的能力不足,而是一种全新的协作范式正在形成——而这种范式的核心瓶颈,从来就不是模型的智商。60% 的使用率说明 AI 已经深度嵌入了工程师的日常;0–20% 的完全委派率说明人类的判断、监督和验收是不可消除的。两个数字合在一起,画出的不是一条“AI 越来越强最终取代人”的直线,而是一条“人与 AI 的协作界面不断被重新设计”的曲线。

换句话说,2026 年的主战场不是“模型有多强”,而是“协作如何被工程化”。

这正是这份报告真正在说的事情。

稀缺性的转移

让我从一个更基本的问题开始:软件工程里,什么东西是稀缺的?

在过去四十年里,答案很简单——代码。写代码的人稀缺,写得好的人更稀缺,能在复杂系统里写对的人极度稀缺。整个行业围绕这种稀缺性建立了它的定价体系、职级体系和流程体系:程序员按能力分级,薪酬按产出定价,项目管理围绕“如何让有限的人力产出足够多的代码”来设计。

2025 年开始,这个等式被打破了。

报告描述的图景很清晰:coding agents 从实验工具走向了能覆盖大量实现环节的生产系统——写代码、写测试、调试、导航复杂代码库、生成文档。代码的供给侧发生了结构性变化。一个工程师配合 agent,产出量可以是以前的数倍。TELUS 的案例显示:工程代码交付提速 30%,节省 50 万小时以上,平均每次 AI 交互节省 40 分钟。更重要的是,约 27% 的 AI 辅助工作属于“以前根本不会做”的事情。

当产出的供给侧被彻底改写,稀缺性就会发生转移。

代码不再是稀缺资源。“可靠的变更”才是。

什么是“可靠的变更”?它不只是“代码能跑”,而是:这段变更解决了正确的问题、通过了充分的验证、不会在集成时引发回归、不会在生产环境中造成安全漏洞、并且在需要时可以被安全回滚。

这个定义本身就暗示了一整套系统能力——需求规格化、自动测试、代码审查、灰度发布、监控告警、审计追踪。这些能力以前是“加分项”,在代码产出爆炸的时代,它们变成了“生死线”。

如果用一句话概括这份报告的中心命题:软件开发正在从“以写代码为中心”转向“以编排写代码的智能体为中心”,同时必须保留人类的判断、监督与协作来保证质量。

理解了“稀缺性转移”这个底层逻辑,报告里的八个趋势就不再是互不相关的预测清单——它们是同一个结构性变化在不同层面的展开。

当实现被折叠:三种新瓶颈

报告的第一个趋势是 SDLC 被“压缩并重排”:传统的开发周期从数周压缩到数小时,agent 驱动实现 + 自动测试 + 内联文档会把线性流程变成高频反馈回路。报告甚至认为这是一次堪比 GUI 出现的交互层变革。

这个判断大方向上没问题,但它容易让人产生一个错觉:“一切都变快了”。

事实上,当实现被折叠后,变快的只是其中一段。整个链条上会浮现出三种新瓶颈,而它们恰好都不是 AI 擅长解决的:

第一种:意图延迟。 需求表达不清,约束没有被结构化。Agent 再强也没用——它只会“做得很快但做错”。你可以在几分钟内拿到一个完整的功能实现,但如果需求本身是模糊的,你拿到的只是一个高速飞向错误方向的产出。

第二种:验收延迟。 代码产出爆炸,但人类 review、产品验收、合规审批的带宽没有同步增长。这会形成一个经典的排队论问题:上游的生产速率超过下游的处理速率,队列无限增长,lead time 反而变长。

第三种:集成延迟。 多个 agent 并行工作、多条变更同时落地时,冲突、回归和不一致性问题会急剧上升。这不是新问题——大型团队一直面对它——但 agent 把它加速了一个数量级。

所以,真正的工程升级不是“让 AI 写更多”,而是把验收做成系统。你可以叫它 TDD、contract tests、policy-as-code,但本质都是一件事:把口头标准变成可机器验证的门禁。 只有当“验收”被自动化到接近“实现”的速度时,压缩才是真正有效的。

多智能体不是“更多算力”,是一种新的组织形式

报告的第二个趋势预测:2026 年组织会从单智能体走向“多智能体团队”。

如果你把这个趋势理解为“多开几个窗口同时跑”,你就低估了它的含义。

多智能体编排解决的核心问题不是“一个模型上下文不够大”。它解决的是两个更工程化的问题:

第一,把大任务拆成可并行、可验证的小单元。 每个 agent 有独立的上下文和职责边界。这本质上就是微服务思想在 AI 工作流中的复现——你把一个巨型任务分解成多个有明确输入输出的小服务,每个服务可以独立测试、独立失败、独立恢复。

第二,把协作从“聊天式”升级为“协议式”。 每个 agent 的输入格式、输出格式、完成定义、失败回退策略和冲突处理方式,都需要被标准化。这就是分布式系统里的 API 契约和服务编排——只不过现在“服务”碰巧是一群 AI 智能体。

Fountain 的案例很说明问题:他们用分层多智能体编排来处理筛选、入职、转化等环节,把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。这里面真正起作用的不是“AI 更聪明了”,而是“任务被正确地拆解和编排了”。

但这里有一个反直觉的推论值得警惕:

并行越强,集成与一致性越难。

这跟分布式系统的经验完全一致。当你从单体服务走向微服务时,你获得了可伸缩性,但你也引入了分布式事务、数据一致性、服务发现、链路追踪等一整套新的复杂度。多智能体编排也一样——你更需要接口契约、变更隔离、自动集成测试、特性开关和灰度发布这些传统工程纪律。否则,你只是把“人肉并发”的痛点搬到了 AI 上。

长跑智能体把“项目管理”变成“运行时治理”

报告预测 agent 的任务跨度会从分钟 → 小时(2025)→ 天级甚至周级(2026)。Rakuten 的案例印证了这一点:他们让 Claude Code 在一个千万级代码行的开源库里自主运行 7 小时完成复杂任务,达到 99.9% 数值精度。

这不再是“工具”。这是一个持续运行的生产系统。

一个跑几天的 agent 会产生大量变更、分支、PR、测试结果、失败记录和重试。它需要状态管理——记忆、计划、上下文的持久化。它需要审计与追踪——每一步决策都要可追溯。它需要成本控制——算力和 API 调用是有预算的。它需要故障隔离——一次错误不能污染整个运行链路。

换句话说,你需要像运维一个生产服务一样运维你的 agent。

我认为这会催生一个新的系统层:Agent Runtime(智能体运行平台)。 它的职责和 CI/CD 平台类似,但维度更多:谁能启动长跑任务?资源额度是多少?失败重试策略是什么?产出的代码如何被分桶 review?风险变更如何自动升级给人?

报告还提到一个很有想象力的推论:当 agent 能自主长期工作后,过去 ROI 不够的项目突然变得可行——积累多年的技术债可能被 agent 通过 backlog 系统性消除,创业者能在“几天”而非“几个月”从想法到部署。

这很诱人,但前提是你有能力治理这些长跑过程。没有治理的长跑 agent,就像没有项目管理的马拉松——跑得越久,偏得越远。

监督规模化的核心矛盾

报告指出 2026 年一个最有价值的能力进化:agent 学会了“什么时候该求助”,人类只在必要时进入回路。AI 审查 AI 产出将成为标准配置——检查安全漏洞、架构一致性和质量问题,避免人类被海量产出淹没。

这个方向是对的。当代码产出增长 5 倍但 review 人力不增长时,你只有两个选择:要么降低 review 标准(然后在线上付出代价),要么用 AI 帮你做第一轮筛选。显然后者更合理。

但“AI 审 AI”有一个结构性风险,报告没有展开讨论:同源错误。

如果生成代码的模型和审查代码的模型来自相似的训练数据、使用相似的推理模式,它们可能会犯相关性很高的错误——一起忽略同一个边界条件,一起误判同一个安全假设。这就像让同一所学校毕业的两个人互相批改试卷——他们大概率有相同的知识盲区。

所以监督规模化不能仅靠“再来一个 AI”。它需要独立证据链:

  • 单元测试、集成测试、端到端测试(不是 AI 说“这段代码没问题”,而是测试跑过了)
  • 静态分析和类型检查(不是 AI 判断“这里类型安全”,而是编译器保证了)
  • 依赖扫描和许可证审计(不是 AI 觉得“没有安全漏洞”,而是扫描器确认了)
  • 运行时监控和告警(不是 AI 预测“不会出错”,而是线上数据证明了)
  • 灰度发布和自动回滚(不是 AI 承诺“没有回归”,而是灰度流量验证了)

AI 可以帮你写这些证据链——这是它最好的用途之一。但最终,你必须用事实约束智能体,而不是用另一个智能体的口头保证。

“民主化”的两条路

报告预测 agentic coding 会扩展到非工程人群:安全人员、运维、设计师、数据分析师都能用代码解决问题;更远一步,销售、市场、法务、运营等非技术团队也能自己构建自动化方案。

Zapier 的案例很典型:全员推动 agent 使用,设计团队在客户访谈中实时做原型,组织 AI 采用率达到 89%。Anthropic 法务团队自己用 Claude 把市场审核从 2–3 天缩短到 24 小时——构建工具的人是没有编码经验的律师。

这是一个真实的趋势。但它会沿两条截然不同的路径演化:

好的路径: 企业提供统一平台——身份、权限、审计、数据访问、模板、发布管道——业务团队在护栏内自助创新。工程团队从“交付中心”变成“平台与治理中心”,提供可复用的组件、安全边界和发布能力。

坏的路径: 各部门各搞一套脚本、机器人和自动化,数据权限混乱,没人负责维护,安全漏洞藏在各个角落。这就是 Shadow IT 在 AI 时代的加速版。

两条路的分叉点在于一个原则:把能力下放,把风险上收。 能力让更多人能做;风险必须由平台化治理去兜底。做不到这一点的组织,“民主化”带来的治理成本会远超它释放的生产力。

更多产出 ≠ 更多价值

报告提出生产率提升的核心发现:工程师“时间净减少”,但“产出量净增加更大”——生产率主要来自“做了更多”,而不仅是“同样的事更快”。27% 的 AI 辅助工作是“否则根本不会做”的事情:扩展项目、交互面板、探索性工作、修各种小痛点。

这是好事。但它有一个二阶效应值得警惕。

当“额外产出”变得几乎免费,组织会很自然地陷入范围膨胀——“反正很快,顺手加个功能吧”。每个单独的“顺手加一下”都合理,但累积起来会把系统复杂度推到一个你的测试、监控和运维能力跟不上的水平。

这就是为什么你需要“产出治理”:

  • 给团队设定变更预算(不是限制产出,而是确保每一批变更都经过了充分验证)
  • 用可量化指标守住质量底线:缺陷率、回滚率、变更失败率、上线 lead time、线上事故率
  • 定期评估系统复杂度,确保它没有超出团队的理解和控制能力

更多产出是工具,更多价值是系统。 前者 AI 可以给你,后者需要你自己建。

安全:把 Agent 当作一种新身份

报告的最后一个趋势是安全。它的判断很准确:agentic coding 在安全上是“双向改变”——AI 让每个工程师都能做安全审查,但同样的能力也帮助攻击者规模化攻击。

但报告没有点透的一层是:大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。这是一个危险的认知偏差。

一个 coding agent 能调用工具、读写代码、触达数据、触发部署。它是一个新的身份主体(principal),就像一个新入职的员工一样,需要被纳入安全架构。

这意味着你的安全体系要回答一系列新问题:

  • 这个 agent 能访问哪些仓库、哪些环境、哪些数据?
  • 最小权限怎么设计?
  • 密钥与敏感信息如何隔离与审计?
  • 它能不能直接部署到生产?如果能,门禁和回滚怎么做?
  • 发生错误或滥用时,责任归属和追踪怎么做?

如果你的安全模型里没有“agent”这个角色,你就在裸奔——只是暂时还没出事。

一句话策略

如果要把这份报告翻译成一句可执行的组织策略:

建立三层体系:规格清晰化 → 执行自动化 → 质量与安全可验证化。让智能体负责产出,让系统负责约束,让人类负责方向与裁决。

展开来说,这就是一个“Agentic Engineering OS”:

意图层: PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这是整个系统的输入质量,垃圾进垃圾出。

执行层: 多智能体编排、工具调用、长跑任务管理。这是 AI 最擅长的领域,放手让它干。

保证层: 测试、静态分析、监控、审计、安全门禁、回滚机制、事后复盘。这是让整个系统可信赖的基础,也是人类注意力应该聚焦的地方。

报告最后的建议压缩成了四个优先方向:掌握多智能体协作、用 AI 自动化 review、把 agentic coding 扩展到工程以外、从最早期就把安全嵌入。这四个方向都对,但它们共享同一个前提——你必须先建好保证层。

没有保证层的 agentic coding,就像没有刹车的跑车。油门越大,死得越快。

尾声

回到开头那个被忽略的数字:60% 的使用率,0–20% 的完全委派率。

很多人看这个数字觉得“AI 还不行”。我看这个数字觉得“这才刚开始”。

它告诉你的是:AI 已经深入到了工程实践的核心,但人的判断力不是瓶颈,而是基础设施。不是等 AI 更强之后人就可以退出回路,而是人的参与方式会持续演化——从写代码,到审代码,到设计让 agent 写代码、让系统审代码的规则。

2026 年赢的不是“写得更快”的团队,而是把协作与质量变成可复制的系统能力的团队。

前者只需要买更好的工具。后者需要重新设计你的工程体系。

这就是为什么这份报告的标题是“Agentic Coding”——不是“AI Coding”。区别在于:AI coding 是用 AI 写代码;agentic coding 是把 AI 当作一个有自主性的参与者来编排。前者是工具升级,后者是范式变迁。

范式变迁不会等你准备好。但好消息是:你需要做的第一步并不复杂——把你团队最重要的验收标准写成可执行的测试,然后交给 agent 去跑。

从这一步开始,你就已经站在了新范式的这一边。

当写代码变得不值钱之后

发表于 2026/02/24 | 分类于 AI专题

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。

“软件开发正在从‘以写代码为中心’转向‘以编排写代码的智能体为中心’。” —— Anthropic,2026 Agentic Coding 趋势报告

引子:七个小时的独奏

2025 年,日本乐天集团做了一个实验。

他们让 Anthropic 的 Claude Code 在一个叫 vLLM 的开源项目里完成一项复杂的工程任务。vLLM 是一个用于大语言模型推理优化的框架,代码量在千万行级别。任务的复杂度相当于一个资深工程师需要数周才能完成的工作。

Claude Code 自主运行了 7 个小时,中间没有人类介入。

最终的产出达到了 99.9% 的数值精度。

这个案例不是我要讨论的重点——单个案例证明不了趋势。我真正想讨论的是:当这类案例开始批量出现时,软件工程这个行业的底层逻辑会发生什么变化?

Anthropic 在 2026 年初发布了一份趋势报告,试图回答这个问题。报告总结了 8 个趋势,涉及开发流程、智能体协作、组织形态和安全架构。这篇文章是对这份报告的一次逐层拆解——不仅仅是复述,更重要的是用跨学科的视角来检验这些趋势到底站不站得住脚。

在正式展开之前,有一个数字值得先记住:开发者在约 60% 的工作中使用 AI,但只能把 0–20% 的任务完全委派给 AI。 这个数字几乎决定了所有落地策略的方向——2026 年的核心挑战不是“要不要用 AI”,而是“如何把人与 AI 的协作系统化”。

一、从流水线到反馈回路:SDLC 的范式转换

1.1 一次堪比 GUI 出现的变革

报告把 agentic coding 对软件开发流程的影响,类比为图形用户界面(GUI)对计算机交互的影响——不是小修小补,而是交互层面的整体重构。

传统的软件开发生命周期(SDLC)是一条线性流水线:需求 → 设计 → 编码 → 测试 → 部署 → 运维。即便敏捷方法论把它缩短成了两周一个冲刺,底层逻辑仍然是“人来写代码,然后推进到下一个环节”。

报告预测的图景是:agent 驱动实现 + 自动测试 + 内联文档,会把周期从“数周”压缩到“数小时”。更关键的是,监控数据会直接回流到迭代入口——不再是“先发布再观察”,而是“持续发布、持续观测、持续调整”。线性流水线变成了高频反馈回路。

这听起来像是“一切都变快了”。但深入想一步,你会发现事情没那么简单。

1.2 利特尔定律的警告

运筹学里有一条基本定律,叫利特尔定律(Little’s Law)。它说的是:在一个稳定的排队系统里,队列中的平均项目数 = 到达率 × 平均等待时间。

翻译成软件工程的语言:如果你的代码产出速率翻了 5 倍(agent 帮你写),但你的 review 和验收速率没有跟上,那排队等待 review 的 PR 数量就会翻 5 倍。Lead time 不但不会缩短,反而可能变长。

这不是理论假设。任何做过大规模团队管理的工程经理都见过这个现象:开发阶段越快,瓶颈越容易转移到 code review、QA 和产品验收上。

我把这种现象概括为三种“新延迟”:

意图延迟: 需求和约束表达不清,agent 做得很快但做错了。这就像你对出租车司机说“去那个路口附近”——他开得飞快,但不是你想去的地方。

验收延迟: 人类 review 和审批的带宽没有跟上产出爆炸。上游的水龙头开大了,但下游的管道还是老粗细。

集成延迟: 多条变更并行落地时,冲突和回归问题急剧增加。这就是分布式系统里的“脑裂问题”在代码管理上的投影。

1.3 验收必须变成系统

那怎么办?

答案是:把验收标准前置成可执行的检查。

不管你叫它 TDD、contract tests、policy-as-code 还是什么别的,本质都是同一件事——把“口头标准”变成“机器可以验证的门禁”。这样 agent 的产出在落地之前就能被自动过滤,人类只需要处理那些机器无法判断的边界情况。

报告本身也提到了这个方向:“监控直接回流到快速迭代。”但我想把它说得更尖锐一点:在 agentic coding 时代,没有可执行验收标准的团队,会比没有 agent 的团队更慢。 因为你用 agent 制造了大量产出,但没有能力消化它。

二、从单打独斗到智能体“战队”

2.1 纺织业的第二次革命

让我用一个历史类比来说明多智能体协作的本质。

18 世纪的英国纺织业经历过一次著名的效率瓶颈。1764 年,詹姆斯·哈格里夫斯发明了珍妮纺纱机,纺纱速度一下子提高了 8 倍。但织布机的速度没变。结果是:纱线堆积如山,织工忙得要死,整个产业链反而失衡了。

直到 1785 年,埃德蒙·卡特赖特发明了动力织布机,纺和织的速度才重新匹配。再后来,工厂制度把纺纱、织布、染色、裁剪等环节组织成流水线,每个环节由专门的工人和机器负责,整个系统才真正高效运转。

多智能体协作要解决的,本质上就是这个问题——不是让单个 agent 跑得更快,而是让多个专业化的 agent 组成一条高效的流水线。

2.2 报告怎么说

报告预测 2026 年组织会更多使用“多个智能体协同”来处理复杂度。这需要新的工程能力:任务拆解、智能体专长分工、协调协议,以及能展示多并发会话状态的开发环境。

它还给了一个具体案例:Fountain 用 Claude 的分层多智能体编排来处理招聘流程(筛选、入职、转化等环节),把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。

2.3 分布式系统的经验

如果你是一个做过微服务架构的工程师,你会觉得这一切似曾相识。

从单体服务拆分为微服务,你获得了可伸缩性和独立部署能力,但你也引入了一整套新的复杂度:服务发现、负载均衡、分布式事务、数据一致性、链路追踪、熔断降级。这些问题不是“可能会遇到”,而是“一定会遇到”。

多智能体编排面临完全相同的挑战。每个 agent 就是一个微服务——它有独立的上下文、独立的职责、独立的输入输出。当多个 agent 并行工作时,你需要:

  • 接口契约(agent 之间如何传递信息?格式和语义是否明确?)
  • 变更隔离(一个 agent 的错误如何防止扩散到整个系统?)
  • 自动集成测试(多个 agent 的产出合在一起之后,整体是否还能工作?)
  • 冲突解决(两个 agent 修改了同一个文件怎么办?)

康威定律说:系统的架构会映射组织的沟通结构。在多智能体时代,我们需要加一句:智能体系统的架构会映射你的编排协议的质量。 协议越清晰,系统越可靠;协议越模糊,灾难越近。

三、当 Agent 能跑好几天

3.1 从工具到系统

如果说多智能体协作改变的是“空间维度”(并行),那长跑智能体改变的就是“时间维度”(持续)。

报告预测 agent 的任务跨度会从分钟 → 小时 → 天级甚至周级。在最少人类介入的情况下,构建完整的应用或系统。人类主要在关键节点提供战略监督。

它还强调,长跑 agent 必须面对“软件开发的脏活现实”:持续规划、迭代、从失败恢复、跨多会话保持状态一致。这不是一个可以在理想条件下运行的系统——它必须在充满意外的真实世界里生存。

3.2 赫伯特·西蒙的预言

诺贝尔经济学奖得主赫伯特·西蒙在 1969 年的《人工科学》中提出了一个至今仍被低估的洞察:复杂系统要在不确定的环境中存活,必须具备层级结构(hierarchy),且每一层都能在自身层面上做出有意义的决策。

长跑 agent 正在逼近这个描述。一个跑几天的 agent 不是一个简单的“脚本”——它要做规划(决定接下来该做什么)、执行(写代码、跑测试)、恢复(失败了怎么回退)、记忆(记住之前做了什么和为什么)。这本质上就是西蒙所说的“层级化的自适应系统”。

3.3 你需要一个 Agent 运行平台

当 agent 能跑几天,你面对的就不再是“写代码工具”,而是一个持续运行的生产系统。这意味着你需要像管理一个服务一样管理它:

可观测性: agent 现在在做什么?进度如何?有没有卡住?

成本控制: 这次运行消耗了多少 token?多少 API 调用?是否在预算内?

故障隔离: 一次错误决策产生的影响范围是什么?如何防止级联失败?

权限管理: agent 能访问哪些资源?能做哪些操作?谁授权的?

审计追踪: 为什么做了这个决策?依据是什么?能不能事后追溯?

我把这个系统叫做 Agent Runtime。它在概念上类似于 CI/CD 平台,但职责更广。未来的软件团队很可能会像管理 CI/CD 一样管理它——谁能启动长跑任务?额度是多少?失败重试策略是什么?产出的代码如何被分桶 review?风险变更如何自动升级给人?

3.4 被释放的可能性

当然,长跑 agent 不只带来治理挑战,也释放了巨大的可能性。

报告提到:过去不划算的项目变得可行,积累多年的技术债可能被 agent 通过 backlog 系统性消除。创业者甚至能在“几天”而非“几个月”从想法到部署。

这让人想起克莱顿·克里斯坦森在《创新者的窘境》中提出的概念:技术进步会改变“够好”的门槛。 当数码相机的质量“够好”了,胶片行业就崩塌了——不是因为数码在画质上超过了胶片,而是因为“够好”加上“便宜且方便”就够了。

长跑 agent 可能以类似的方式改变软件行业的竞争格局:它让“够好的软件”变得极其便宜和快速,从而把竞争的焦点从“谁能写出来”转移到“谁的方向更准、谁的质量更可靠、谁的迭代更快”。

四、AI 审 AI:一个必须但危险的方向

4.1 信息过载的老问题

信息过载不是新问题。赫伯特·西蒙早在 1971 年就指出:“信息的丰富意味着注意力的贫乏。”

在 agentic coding 的语境下,这个问题以一种新的形式出现:agent 产出大量代码,人类的 review 注意力成为系统瓶颈。报告预测 2026 年的解决方案是——用 AI 来 review AI 的产出。 Agent 学会“什么时候该求助”,AI 负责做第一轮质量筛查(安全漏洞、架构一致性、代码质量),只把真正需要人类判断的部分标注出来。

这个方向是对的。当上游产出增长了数倍,如果下游还完全依赖人力,系统一定会崩溃。

但它有一个结构性风险。

4.2 同源错误:一种被低估的风险

想象一下:你写了一份报告,然后让你的同班同学帮你审阅。他也是用同样的教材学的、听同一个老师的课、做的同一批习题。他很大概率会跟你犯一样的错——你们的知识盲区高度重叠。

这就是“同源错误”的本质:生成和审查如果来自同类模型、同类训练数据、同类推理模式,它们出错的方式也会高度相关。 一个模型忽略了某个边界条件,另一个来自类似训练分布的模型很可能也会忽略。

统计学里有一个相关的概念叫多重共线性——当多个预测变量高度相关时,它们看起来提供了“多个独立验证”,但实际上只提供了“一个验证的多个复制品”。AI 审 AI 如果模型同源,就面临同样的风险。

4.3 独立证据链

怎么对冲同源错误?答案是构建独立证据链。

所谓“独立”,是指验证方法在逻辑上独立于生成方法。AI 说“这段代码没问题”不算证据,测试跑过了才算。AI 说“没有安全漏洞”不算证据,扫描器确认了才算。AI 说“不会有回归”不算证据,灰度流量验证了才算。

具体来说:

  • 自动化测试: 单元测试、集成测试、端到端测试、属性测试
  • 静态分析: 类型检查、lint 规则、复杂度检查
  • 依赖审计: 安全漏洞扫描、许可证合规检查
  • 运行时验证: 监控告警、灰度发布、自动回滚

AI 可以帮你写这些证据链——事实上这是它的最佳用途之一。但最终,你必须让系统用事实约束智能体,而不是让一个智能体用“判断”约束另一个智能体。

卡尔·波普尔的科学哲学在这里是有用的:一个假说的价值不在于它被多少人(或多少个 AI)认同,而在于它经受了多少独立的否证尝试。 代码的可靠性也是如此。

五、民主化的两面

5.1 技能壁垒的坍塌

报告预测 agentic coding 会扩展到越来越多的“新表面”和“新用户”。

一方面是语言壁垒下降:COBOL、Fortran 等遗留语言也会得到 agent 支持,帮助维护旧系统。另一方面是角色壁垒下降:网络安全、运维、设计、数据等非传统开发者也能使用代码工具。更远一步,销售、市场、法务、运营等完全非技术的团队,也能用 agent 直接构建自动化方案。

Zapier 的案例很有代表性:他们推动全员使用 agent,设计团队能在客户访谈中实时做原型,组织 AI 采用率达到 89%,内部部署了 800 多个 AI agent。Anthropic 自家法务团队也用 Claude 把市场审核从 2–3 天缩短到 24 小时。

报告称之为“人人更 full-stack”:原本“会写代码/不会写代码”的边界变得可渗透。

5.2 Shadow IT 的教训

这里有一个历史教训值得注意。

2000 年代末,云计算和 SaaS 工具兴起之后,企业里出现了一个现象叫 Shadow IT——业务部门绕过 IT 部门,自己购买和使用各种云服务。销售团队用 Salesforce,市场团队用 HubSpot,财务团队用各种 SaaS 报表工具——每个部门都觉得自己解决了问题,但 IT 部门完全不知道有多少系统在运行、数据存在哪里、安全状况如何。

结果是:数据孤岛、安全漏洞、合规风险、维护成本飙升。Gartner 在 2017 年的报告中估计,Shadow IT 占企业 IT 支出的 30–40%。

Agentic coding 的“民主化”如果不加治理,会重演同样的故事——只不过更快、更猛烈。以前的 Shadow IT 只是“买了一个 SaaS”,现在的 Shadow IT 可能是“写了一个能访问客户数据库的自动化脚本”。

5.3 能力下放,风险上收

好的路径是什么?

企业提供统一平台:身份认证、权限管理、数据访问控制、审计日志、模板库、发布管道。业务团队在这个平台的护栏内自由创新。

坏的路径是:各部门各搞一套,数据权限混乱,没人负责维护,安全漏洞藏在各个角落。

分叉点在于一个原则:把能力下放,把风险上收。 能力让更多人能做事;风险必须由集中化的平台来兜底。

这也意味着工程团队的角色会发生转变——从“交付中心”变成“平台与治理中心”。它的价值不再是帮业务团队写代码,而是提供可复用的组件、安全边界、监控能力和发布管道。业务团队负责“最后一公里”;工程团队负责“高速公路 + 交规”。

六、更多产出的二阶效应

6.1 不只是“更快”,而是“更多”

报告有一个容易被忽略但非常重要的发现:生产率的提升主要来自“做了更多”,而不仅是“同样的事更快”。

具体数据是:约 27% 的 AI 辅助工作属于“否则根本不会做”的事情——扩展项目、做交互面板、探索性工作、修各种小痛点。TELUS 的团队创建了 13000 多个定制 AI 解决方案,同时工程代码交付提速 30%,节省 50 万小时以上。

27% 这个数字意味着:以前 ROI 不够高的体验优化、内部工具、质量改进、探索性实验,现在突然都值得做了。

6.2 杰文斯悖论的回声

这里有一个经济学上的经典现象值得警惕。

1865 年,英国经济学家杰文斯发现了一个反直觉的规律:蒸汽机效率越高,煤炭消耗反而越多——因为效率提升导致使用成本降低,更多场景开始使用蒸汽机,总消耗不降反升。这就是杰文斯悖论。

在 agentic coding 的语境下,杰文斯悖论的含义是:写代码的成本越低,写出来的代码越多——系统复杂度也越高。

每个单独的“顺手加个功能”都是合理的。但累积起来,你的系统会越来越庞大、越来越复杂,直到超出你的测试覆盖、监控能力和团队理解力所能支撑的水平。

6.3 产出治理

所以你需要“产出治理”——这是一个听起来很官僚但实际上至关重要的能力:

给团队设定变更预算。 不是限制产出,而是确保每一批变更都经过了充分验证。就像一个银行不会因为“反正贷款利率低”就无限放贷一样。

用可量化指标守住质量底线。 缺陷率、回滚率、变更失败率、上线 lead time、线上事故率——这些指标的作用是当“更多产出”开始损害系统质量时,及时发出警报。

定期评估系统复杂度。 系统有多少个服务?多少个依赖?新成员上手需要多长时间?这些问题的答案如果在快速恶化,说明产出速度已经超出了你的治理能力。

七、安全:把 Agent 当作一种新身份

7.1 双刃剑

报告指出 agentic coding 在安全上是“双向改变”:一方面,任何工程师都能借助 AI 做安全审查和加固;另一方面,攻击者也能用同样的能力规模化攻击。

这并不新鲜——每一次技术民主化都伴随着“武器对等化”。火药让城堡不再安全,印刷术让信息垄断不再可能,互联网让大规模信息操纵变得廉价。agentic coding 会让代码级的攻击和防御都变得更快、更自动化。

7.2 Agent 是一种新的“身份主体”

但报告没有点透的一层是:大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。

一个 coding agent 不只是帮你补全代码。它能调用工具、读写文件系统、触达数据库、触发部署流水线。它是一个有自主行为能力的“身份主体”(principal),就像一个新入职的员工一样——它需要有自己的身份、权限、审计记录和责任边界。

在计算机安全领域,有一个经典原则叫最小权限原则(Principle of Least Privilege),由 Jerome Saltzer 和 Michael Schroeder 在 1975 年提出:每一个主体只应该被赋予完成其任务所需的最小权限集。

把这个原则应用到 agent 上,你需要回答一系列问题:

  • 这个 agent 能访问哪些仓库?哪些环境?哪些数据?
  • 密钥和敏感信息如何隔离?
  • 它能不能直接部署到生产?如果能,门禁和回滚如何设计?
  • 发生错误或滥用时,责任归属和追踪怎么做?

如果你的安全架构里没有“agent”这个角色类型,你就是在用 2020 年的安全模型应对 2026 年的威胁面。

八、把一切收束:一个三层体系

8.1 报告的四个优先级

报告最后把建议压缩成 4 个优先方向:

  1. 掌握多智能体协作以处理单智能体无法覆盖的复杂度
  2. 用 AI 自动化 review 来扩展监督,把人类注意力聚焦在关键处
  3. 把 agentic coding 扩展到工程以外,赋能跨部门领域专家
  4. 从最早期就把安全架构嵌入 agent 系统设计

这四个方向都对。但它们需要一个共同的底座才能落地。

8.2 Agentic Engineering OS

如果要把这份报告翻译成一个可执行的组织框架,我会这样描述它:

意图层(Intent Layer): 这是整个系统的输入端。PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这一层的质量直接决定了下游所有产出的质量。垃圾进垃圾出——这条朴素的工程真理在 agent 时代被放大了一百倍,因为 agent 会以极高的效率把你模糊的需求变成大量模糊的代码。

执行层(Execution Layer): 这是 agent 的主战场。多智能体编排、工具调用、长跑任务管理。这一层的核心指标是产出的速度和覆盖面。报告中的大部分趋势——多智能体、长跑 agent、非工程人群的扩展——都发生在这一层。

保证层(Assurance Layer): 这是整个系统的安全网。自动化测试、静态分析、监控告警、审计追踪、安全门禁、灰度发布、回滚机制、事后复盘。这一层的作用是用事实约束执行层的产出——不是让人相信 agent 做得对,而是让系统证明 agent 做得对。

三层之间的关系是:意图层决定方向,执行层负责产出,保证层确保可信。 三层都强的团队,才能真正吃到 agentic coding 的红利——周期压缩、产出放大、跨部门扩散与安全内建。

8.3 一个类比

如果你觉得这个框架太抽象,可以把它想象成一个现代化的自动驾驶系统。

意图层是导航系统——你输入目的地,它规划路线。路线越精确,抵达的概率越高。

执行层是发动机和传动系统——它负责让车跑起来。多智能体就像多缸发动机,并行出力。

保证层是刹车系统、安全气囊和车道保持——它们不创造速度,但它们决定了你能安全地使用多大的速度。

没有刹车系统的跑车,油门越大,死得越快。 这就是为什么“保证层”不是锦上添花,而是整个体系的生死线。

结语:什么东西变贵了

每一次技术变革都会改变“什么东西贵、什么东西便宜”的相对价格。

蒸汽机让体力变便宜,让能源管理变贵。印刷术让信息传播变便宜,让注意力变贵。互联网让分发变便宜,让信任变贵。

Agentic coding 让代码产出变便宜了。那什么东西变贵了?

正确的方向变贵了——因为 agent 会以极高的效率执行你的意图,如果意图是错的,你会极其高效地制造垃圾。

可验证的规格变贵了——因为模糊的需求会被 agent 变成大量模糊的代码,而你没有足够的人力去逐一检查。

可扩展的质量控制变贵了——因为产出量增长了数倍,但你的测试、监控和审计能力不会自动跟上。

可审计的安全边界变贵了——因为 agent 不再是被动工具,而是能主动行动的身份主体。

总结成一句话:代码不再稀缺之后,“可靠的变更”变成了真正的稀缺品。

这份报告给出的 8 个趋势,归根到底都在回答同一个问题:在代码不再稀缺的世界里,如何系统性地生产“可靠的变更”?

答案不是更强的模型——模型会继续进步,但那是 AI 公司的事。答案是更好的协作系统——把意图说清楚、让 agent 去执行、让保证层来兜底、让人类做最终裁决。

谁先把这套系统跑起来,谁就在新规则下领先。这不是预言,这是工程。

当AI成为你的同事:Anthropic内部报告揭示的新工程范式(Stratechery版)

发表于 2026/02/24 | 分类于 AI专题

Claude Code 与软件工程的范式转移:Anthropic 内部实践报告深度分析

报告背景

上周 Anthropic 发布了一份内部报告《How Anthropic teams use Claude Code》。与通常的产品案例研究不同,这份报告罕见地展示了一家 AI 公司内部 10 个不同职能团队——从数据基础设施到法务——如何在日常工作中真实使用自家的 AI 编程工具。

这种内部实践的透明度本身就值得关注。但我认为这份报告更大的价值在于,它无意中揭示了软件工程——以及更广义的知识工作——正在经历的一次底层范式转移。

核心论点

我的核心论点是:Claude Code 之所以在 Anthropic 内部产生显著的生产力提升,不是因为模型本身足够强大,而是因为这些团队独立发展出了一套适配“概率式系统”的工程方法论。 这套方法论才是这份报告最有迁移价值的部分。

让我从三个维度来论证这个观点。


维度一:从确定性到概率性——工程方法论的根本变化

传统软件工程建立在一个基本假设之上:代码是确定性的。你写了什么,它就执行什么。debug 的逻辑也很清晰——追踪执行路径,找到偏差点,修正它。

AI 编程工具打破了这个假设。

报告中最坦诚的数据来自 RL 工程团队:让 Claude Code 独立完成一个小到中等的 Pull Request,首次成功率大约只有三分之一。这不是一个令人沮丧的数据——这是一个定义性的数据。它告诉我们 AI 辅助编程的本质不是“自动化”,而是“概率性生成”。

面对这个现实,Anthropic 的团队发展出了两种互补的策略。

策略一:老虎机式工作法(Slot Machine Approach)

数据科学团队的做法最直接:先提交当前进度,让 Claude Code 自由运行 30 分钟处理合并冲突或半复杂的重构。如果结果可用,直接采纳;如果不可用,回滚到上一个 checkpoint 重新开始。

这种方法的核心洞察是:在概率式系统中,“重新采样”有时比“逐步修正”的预期回报更高。 这和传统工程中“遇到 bug 就 debug”的直觉完全相反,但在数学上是站得住脚的。

RL 工程团队的“try & rollback”策略本质上是同一思路的变体:先一次性(one-shot)让 Claude 跑完整个任务,成功就赚到;失败就切换到更精细的协作模式。

策略二:风险分层的监督模型

产品研发团队的做法更体系化。他们明确将任务分为两类:

  • 低风险任务(原型、外围功能、测试生成、格式化):开启 auto-accept 模式,让 Claude 自主运行“写代码→跑测试→自我修正”的循环。Vim mode 功能约 70% 的最终实现来自这种自治模式。
  • 高风险任务(核心业务逻辑、安全相关修改):同步监督,具体的 prompt,实时纠偏。

这不是个人偏好的问题,这是一套工程治理模型:用监督强度来对冲不确定性,用任务分类来管理风险暴露面。


维度二:瓶颈转移——从“代码产出速度”到“上下文税”

如果说维度一关注的是“怎么用”,维度二关注的是“用在哪里最值”。

报告中一个反复出现的主题是:Claude Code 最大的价值往往不在于“写代码更快”,而在于降低上下文获取的成本。

API 团队的描述最典型:任何任务的第一步是问 Claude “我该看哪些文件、从哪里下手”,然后在不熟悉的子系统里独立 debug,而不是去找同事求助。他们特别提到了一个细节——Claude Code 省掉了把代码片段搬到另一个聊天窗口再解释背景的“上下文搬运成本”。

Inference 团队给出了量化数据:过去理解一个不熟悉的 ML 概念需要 Google 搜索加阅读文档约一小时,现在只需要 10-20 分钟,研究时间降低了 80%。安全工程团队的数据是:手动扫代码定位问题从 10-15 分钟缩短到 5 分钟左右。

这些数字在个体层面看起来是效率优化,但在组织层面它们指向了一个更深层的变化。

组织效率的真正瓶颈

在一个成熟的软件组织里,真正昂贵的不是“写代码”,而是围绕代码的一切协调成本:

  • 新人入职数周才能有效贡献(Inference 团队和安全工程团队提到的 onboarding 加速)
  • 轮岗到新项目需要大量代码考古(API 团队的经验)
  • 安全审批成为研发的等待瓶颈(安全团队对 Terraform plan 的审查加速)
  • 跨团队协作需要反复对齐上下文(数据基础设施团队让非工程同事自助运行数据流程)

Claude Code 在这些场景里不是在“替你写代码”,而是在压缩闭环——减少从“提出问题”到“得到可验证结果”之间的等待、搬运和沟通成本。

如果我们要重新计算 AI 编程工具的 ROI,正确的口径可能不是“每个工程师每天多写了多少行代码”,而是“每个协作闭环减少了多少等待时间和上下文搬运”。


维度三:边界重塑——AI 作为“跨角色的翻译层”

报告中最出人意料的章节不是来自工程团队,而是来自增长营销、产品设计和法务。

增长营销:一个非工程师的“团队化”

增长营销团队只有一个人,这个人不是工程师。但他用 Claude Code:

  • 构建了 Google Ads 自动化系统:处理包含数百条广告和指标的 CSV,用两个子代理分别负责标题(30 字符限制)和描述(90 字符限制),几分钟生成数百个新广告变体
  • 开发了 Figma 插件:程序化生成最多 100 个创意变体,单次操作的时间从小时级压缩到秒级,产出提升 10 倍
  • 通过 MCP server 连接 Meta Ads API 做投放分析

文案制作从 2 小时降到 15 分钟。一个人的产出像一个小团队。

产品设计:从“交付静态稿”到“交付可运行原型”

设计团队不再只做视觉微调。他们直接用 Claude Code 修改前端状态管理逻辑、梳理 error state 和边界情况,甚至完成了一次全站合规措辞替换——这项工作原本需要设计、工程和法务三方协调一周,现在压缩到两次 30 分钟的通话。

设计师在 80% 的工作时间里同时开着 Figma 和 Claude Code。报告中有一句话精确捕捉了这种转变的双重性:对有开发经验的人,Claude Code 是“增强版工作流”;对没有开发经验的人,它是“我居然能当开发者”的全新能力。

法务:一小时做出辅助沟通应用

一位律师用 Claude Code 在一小时内构建了一个预测文本加语音输出的辅助沟通应用,用于帮助有语言障碍的家人。法务团队还做了“phone tree”原型(帮同事找到对口律师)和 G Suite 自动化(周更跟踪、法务 review 状态管理)。

这意味着什么

这三个团队的案例共同指向一个结论:Claude Code 在组织中扮演的角色不是“更强大的 IDE”,而是一个跨角色的翻译层——它把业务意图、设计意图、合规意图翻译成可执行的代码变更。

这是一个具有深远影响的变化。

在传统组织架构中,“能写代码”是一条清晰的能力边界。业务部门想要自动化,得排队等工程资源。设计师想要调整交互逻辑,得写 ticket 给开发。法务想要一个内部工具,得走立项流程。

当 AI 把这条边界模糊化之后,“谁能做什么”的定义被重写了。这带来了两个并行的后果:

正面后果是创新的加速。 法务团队明确鼓励“分享不完美的原型”,因为原型会激发跨部门创新。增长营销从“执行者”转向“策略制定者和自动化建设者”。设计师在系统约束中做取舍的能力显著增强。

负面后果是风险面的扩大。 当非技术部门能直接连接到系统和数据时,过去“不是工程师所以碰不了系统”这道天然防火墙就消失了。法务团队明确提出了对 MCP 深度集成的安全顾虑,数据基础设施团队建议敏感数据场景使用 MCP server 以实现权限控制和审计追踪。

这是 AI 工具能否在企业中规模化采用的决定性因素:治理体系能否跟上能力的扩张速度。


隐藏在报告中的基础设施:组织记忆的工程化

除了上述三个维度,报告中还有一条暗线值得专门讨论:组织记忆的工程化。

多个团队独立发展出了“把组织经验写成机器可消费形式”的实践:

  • 数据基础设施团队:每次 Claude 工作 session 结束时生成总结,回写到 Claude.md 文档,形成持续完善的运维知识库
  • 安全工程团队:把散落在多处的文档压缩成结构化的 markdown runbook,用于真实故障排查
  • 增长营销团队:搭建实验记忆系统,上一轮广告测试的假设和结果自动传递给下一轮,形成自我改进的测试框架
  • RL 工程团队:把 Claude 常犯的错误模式记录进 Claude.md(如路径问题、命令习惯),降低重复出错率

这些实践的共同逻辑是:AI 工具的质量不仅取决于模型能力,还取决于可供消费的组织知识的结构化程度。 写得更好的 Claude.md 直接等于更稳定的输出。

安全工程团队的一个数据点佐证了这一点:他们在 monorepo 中实现了 50% 的自定义 slash command。这意味着他们已经把“经常做的事”封装成了可复用的资产,从个人效率升级为团队能力。

这是 AI 工具从“个人提效”迈向“组织规模化”的关键一步。也是最容易被忽略的一步。


局限性:必须正视的现实

任何严肃的分析都不应回避局限性。报告中至少暴露了四个需要注意的问题:

  1. 可靠性的天花板。 RL 工程团队的“三分之一首次成功率”是真实数据。这意味着对 AI 编程工具的合理预期不是“自动交付”,而是“加速迭代”。任何假设 AI 能独立完成关键任务的工作流设计都是危险的。

  2. 复杂性偏好。 数据科学团队特别提到,模型有“默认走复杂方案”的倾向。你需要主动要求更简单的实现方式,否则会得到过度工程化的代码。

  3. 输出质量的不一致。 RL 工程团队指出 Claude 会自动添加注释,但位置和措辞有时很奇怪,代码组织结构也可能不符合团队规范。这意味着 code review 仍然是不可省略的环节。

  4. 安全与合规风险。 当 AI 工具能直接操作生产系统时,最小权限原则、审计日志、变更审批这些治理机制不是可选项,而是必选项。


对企业的启示:分阶段采用框架

基于报告中 10 个团队的经验,我认为企业采用 AI 编程工具的最优路径不是“全面铺开”,而是分阶段推进:

第一阶段:知识导航与测试补全。 风险最低、见效最快。让 AI 回答“某功能在哪里”、“这段代码做了什么”、“帮我补一下这个函数的边界测试”。目标是在团队内建立基本信任。

第二阶段:三闭环基础设施。 在放手让 AI 做更多事之前,先搭建上下文(Claude.md / memory 文件)、控制(干净分支 + 高频 checkpoint)、反馈(自动化 build / test / lint)三套机制。这决定了 AI 工具能否安全地“跑更久”。

第三阶段:能力资产化。 把高频流程封装成 slash command、GitHub Actions 或 MCP 集成。这是从个人效率升级到团队效率的关键跃迁。

第四阶段:非技术角色接入。 在完善权限、审计和安全默认值之后,让设计、营销、法务等非技术角色进入可控的 AI 辅助工作流。先解决环境搭建和权限配置的门槛,再强制小步修改和审核机制。


结论

Anthropic 这份报告最有价值的地方不在于“他们用 Claude Code 做了什么酷项目”,而在于它展示了一套完整的方法论——如何在一个概率式系统不够可靠的前提下,通过工程手段(checkpoint、反馈闭环、风险分层、组织记忆)将其转化为可控的、可规模化的生产力工具。

更重要的是,它暗示了软件工程和知识工作的一次深层结构变化:

  • 工程方法论从“确定性流程”转向“概率式流程”
  • 生产力瓶颈从“代码产出速度”转向“上下文获取成本”
  • 组织能力边界从“职能分工”转向“AI 辅助的能力弹性”
  • 治理挑战从“管好工程师”转向“管好每个人的 AI 权限”

对于正在评估 AI 编程工具的技术领导者来说,这份报告的真正信息不是“赶紧用”——而是“想清楚怎么用”。流程闭环、能力资产化和风险分层,比模型选择本身更决定最终的投入产出比。

当AI成为你的同事:Anthropic内部报告揭示的新工程范式(万维钢版)

发表于 2026/02/24 | 分类于 AI专题

当 AI 成为你的同事:Anthropic 内部报告揭示的新工程范式

一、一个反直觉的发现

Anthropic 最近发布了一份报告,叫《How Anthropic teams use Claude Code》。乍一看,这好像是一家 AI 公司在展示自家产品有多好用。但仔细读完,我发现它真正讲的是一件更有趣的事——

软件工程正在从一门“确定性手艺”变成一种“概率性博弈”。

我们过去写代码的逻辑很简单:想清楚,写下来,测一测,上线。每一步都是确定的。但当 AI 深度介入开发流程之后,游戏规则变了。Anthropic 的 RL(强化学习)工程团队在报告里坦诚地说:让 Claude Code 独立完成一个小到中等的 PR,“一次就成”的概率大约只有三分之一。

三分之一。这个数字非常关键。

它意味着你不能像指挥一个靠谱工程师那样指挥 AI——“去把这个功能做了”,然后等着交付。你得换一种完全不同的思路。

Anthropic 自己的 10 个团队,从数据基础设施到法务,从安全工程到增长营销,各自独立地摸索出了一套新方法。把这些方法叠在一起看,你会发现它们指向同一个底层规律。

这篇文章就来讲讲这个规律。


二、老虎机式工作法

Anthropic 的数据科学团队发明了一个绝妙的说法,叫“老虎机式工作法”(slot machine approach)。

做法很简单:你先保存好当前进度(checkpoint),然后让 Claude Code 自由发挥 30 分钟——写代码、跑测试、自我修正。30 分钟后你回来一看:如果结果不错,恭喜你赚到了;如果一团糟,你直接回滚到 checkpoint,重新来一次。

这听起来荒唐。传统工程思维里,你遇到错误应该去修它、去 debug、去逐步逼近正确答案。回滚重来?那不是浪费前面所有的工作吗?

但这恰恰是概率式系统的反直觉真相:当生成器有随机性时,重新开始有时比逐步修补更便宜。

想象你在走迷宫。如果你能看到迷宫全貌,那当然应该逐步修正路线。但如果你蒙着眼睛走,每一步都有随机性,那么当你发现走到死胡同时,最聪明的做法不是原路返回再试一条岔路——而是直接传送回起点,重新走。因为 AI 每次生成的路径不一样,“重新走”有真实概率走出一条更好的路。

RL 工程团队用的也是同一套策略:先让 Claude 一次性跑完整个任务(one-shot),成了就赚到;没成就切换到“协作引导模式”,人在旁边一步一步带。他们甚至把 Claude 常犯的错误记录下来写进文档(Claude.md),比如“不要乱 cd 目录”、“pytest 路径要写对”——下次它就不会犯同样的错了。

这整套东西——checkpoint、回滚、重新尝试、记录错误——不是什么小技巧。它是一种新的工程范式。


三、概率式协作的三根支柱

当我把 10 个团队的做法叠在一起看时,我发现它们虽然各自独立探索,却不约而同地搭建了同一套基础设施。我把它概括成三根支柱:上下文、控制、反馈。

第一根:上下文。 你得告诉 AI 它在哪、该怎么做、有哪些约束。

数据基础设施团队写了一份详细的 Claude.md,里面包含数据管道的依赖关系、上游数据源、dashboard 的对应关系。新人入职时,不用再拉着老员工讲半天——让 Claude 读 Claude.md 就行了。

更妙的是,他们让每次 Claude 工作 session 结束时自动生成总结,然后把总结回写到 Claude.md 里。这意味着这份文档会越来越完善——AI 在使用过程中不断改进自己的“使用说明书”。

设计团队也写了自定义 memory 文件,但内容不一样:“我是设计师,不是工程师,请用小步骤解释每一步改动。”

第二根:控制。 你得确保 AI 搞砸的时候你能回到安全地带。

产品研发团队的规矩是:永远保持干净的 git 状态,频繁做 checkpoint。这不是代码洁癖,这是生存策略。当你让一个概率性系统自由发挥时,“可以随时撤销”就是你最重要的安全网。

数据科学的老虎机工作法也是同一个思路:先 commit,再放手。

第三根:反馈。 你得让 AI 自己知道它做得对不对。

产品研发团队有一个核心实践叫“自给自足循环”(self-sufficient loop):让 Claude 写完代码后自动跑 build、test、lint。如果测试挂了,它自己修;lint 有问题,它自己改。你不需要一行一行盯着看——让系统自己告诉它哪里错了。

这三根支柱缺一不可。

没有上下文,AI 不知道该做什么,你就会反复纠错。没有控制,你不敢放手,AI 只能做最简单的活。没有反馈,你只能靠人肉 review 来判断质量,那 AI 的速度优势就打了折扣。

很多团队觉得“AI 不够聪明”,其实不是。你缺的不是更强的模型,而是这三根支柱中的某一根。


四、风险分层:一种新的工程治理模型

产品研发团队给出了一个特别清晰的分类法:

  • 外围功能、原型、批量替换、测试生成 → 异步自治:开 auto-accept,让 Claude 自己写、自己跑、自己改,你事后来 review。
  • 核心业务逻辑、关键修复、安全相关 → 同步监督:你在旁边实时盯着,prompt 要非常具体,随时纠偏。

他们甚至有一个真实案例:Claude Code 的 Vim mode 功能,最终实现中大约 70% 来自 Claude 的自治工作。但这 70% 全部是在“外围功能”范畴内。核心逻辑仍然是人写的。

这不是技巧问题,这是治理模型。你用“监督强度”来对冲不确定性——风险越高,人介入越深;风险越低,AI 自主权越大。

安全工程团队更是把这个思路用到了极致。他们让 Claude Code 审查 Terraform plan——“这个变更会做什么?有没有后悔风险?”——安全审批的速度一下子快了很多,研发团队不用再排队等安全团队一行一行 review。但注意:Claude 给出的是“分析”,最终 approve 仍然是人按的按钮。

这就是风险分层的精髓:不是不信任 AI,而是按风险等级分配信任。


五、被严重低估的三件事

读完 10 个团队的实践,有三件事被严重低估了。

第一件:截图的价值。

数据基础设施团队排查 Kubernetes 问题时,直接把云控制台的截图喂给 Claude Code。设计团队和法务团队也大量使用“截图→反馈→迭代”的循环。

这件事被低估了。对于很多“界面/状态/配置”类问题,截图比文字描述快 10 倍,也准 10 倍。你不需要费劲把一个 dashboard 的状态用文字翻译出来——贴张图就行了。视觉输入让“人与 AI 对齐”的成本大幅降低。

第二件:组织记忆的工程化。

数据基础设施把 session 总结回写文档。安全团队把散落在各处的知识压缩成 runbook。增长营销团队甚至搭了一套“实验记忆系统”——上一轮广告测试的结果会自动传递给下一轮生成,形成自我改进的闭环。

这些做法共同指向一个结论:把组织经验写成机器可消费的形式,模型才会越用越好,团队才会越用越一致。 否则 AI 永远只是“个人的随机助手”,无法规模化。

第三件:非技术岗位的“跨界”。

增长营销团队只有一个人。这个人不是工程师。但他用 Claude Code 写了 Google Ads 自动化脚本、Figma 批量变体插件、Meta Ads 分析工具。文案制作从 2 小时降到 15 分钟,创意产出提升 10 倍,一个人像一个小团队一样运作。

法务团队更厉害——一位律师用 Claude Code 在一小时内做出了一个预测文本加语音输出的辅助沟通应用,帮助有语言障碍的家人。

产品设计师也不再只做“视觉微调”了。他们开始直接修改状态管理逻辑、梳理 error state、全站替换合规措辞——这些过去都要找工程师才能做的事。

这意味着 Claude Code 在组织里扮演的角色,不是“更强的 IDE”,而是一个翻译层——它把不同角色的意图(业务的、设计的、合规的)翻译成可执行的代码变更。这会改变“谁能做什么”的边界。


六、真正贵的是“上下文税”

API 团队说了一句很精辟的话:Claude Code 最大的价值不是“帮我写代码更快”,而是“帮我省掉了把代码片段搬到另一个窗口、再解释半天背景”的那段时间。

这句话点出了一个被忽视的真相:在大组织里,真正昂贵的不是写代码的速度,而是“上下文税”。

什么是上下文税?就是你为了理解一件事所付出的所有隐性成本——

  • 切换到一个陌生的子系统,要读一个下午的代码才能开始动手
  • 轮岗到新团队,要好几周才能有效贡献
  • 每次提 bug 要把前因后果解释一遍
  • 跨团队协作时反复对齐上下文

Inference 团队说,过去理解一个 ML 概念要 Google 搜索加读文档一小时,现在问 Claude 只要 10-20 分钟,研究时间降低了 80%。安全工程师说,过去手动扫代码定位问题要 10-15 分钟,现在 5 分钟搞定。

这些看起来是“个人效率提升”,但放到组织层面就不一样了:当上下文税降低,跨界协作的摩擦也跟着降低。 新人上手更快,轮岗更顺滑,跨团队求助减少——这些复利效应远比“单次写代码快 20%”更有价值。


七、一种张力

法务团队在报告最后说了一段意味深长的话。他们一方面鼓励大家分享不完美的原型——“因为原型会激发跨部门创新”;另一方面又警告说,MCP 深度集成的安全影响不容小觑,“合规工具要跟上能力扩张的速度”。

这不是一个孤立的担忧。它指出了未来几年很多组织都会遇到的真实矛盾:

当 AI 把“做事”的门槛降到足够低,每个部门都能直接连到系统和数据。这是创新的巨大加速器——也是风险扩散的巨大加速器。

过去,“不是工程师所以碰不了系统”本身就是一道天然防火墙。现在这道墙正在消失。数据基础设施团队建议敏感数据场景用 MCP server 代替直接 CLI,以便做权限和审计控制。法务强调要给非技术用户设定“更严格的安全默认值”。

能力越强,治理就越不能停留在“提醒大家小心”。它必须工程化——最小权限、审计日志、隔离环境、审批门槛。

这是 AI 民主化的代价。也是不得不付的代价。


八、这份报告真正在说什么

让我把这篇文章的核心论点串起来——

Anthropic 10 个团队的实践,表面上是“我们怎么用 Claude Code 的”,底层其实是一个范式转移的缩影:

  1. 软件工程从确定性走向概率性。 你不能指望 AI 每次都对,但你可以设计一个“从不确定性中持续获利”的流程——checkpoint、回滚、重试。这和传统工程直觉相反,但在概率系统里经常成立。

  2. 生产力提升的杠杆点在于“三闭环”(上下文、控制、反馈),不在于模型本身。很多人抱怨“AI 不够好”,其实是缺了其中一环。

  3. 组织效率的核心瓶颈在于上下文税,不在于代码产出速度。 AI 真正值钱的地方,是把跨角色、跨项目、跨学科的摩擦成本压低。

  4. AI 正在把“谁能做什么”的边界重新画一遍。 非技术岗位能写代码,设计师能改状态管理,一个人能像一个团队。但这意味着权限、审计和安全机制必须同步升级。

  5. 组织记忆必须工程化。 Claude.md、runbook、实验日志——把组织经验变成机器可消费的形式,是 AI 工具从“个人提效”迈向“团队规模化”的关键一步。

这份报告最大的价值不在于展示了哪些酷项目。它展示的是一种新的协作方式:把 AI 当成一个概率式的合作伙伴,用工程手段(而不是美好愿望)把它的不确定性变成可控的收益。

这才是“AI 改变工作”的真正意思。

AI时代,我到底在积累什么?

发表于 2026/02/23 | 分类于 AI专题

本文源自我与 ChatGPT 的一次深度讨论,后经 Claude Opus 4.6 整理成文,使用的是我自己的写作风格。

1

最近我花了很多时间跟AI协作。写代码、写文档、做产品、搭工作流。做着做着,我发现了一个奇怪的现象:我积累下来最有价值的东西,好像不是代码。

代码当然也在写。但真正让我觉得有价值的,是那些模板、流程、规范——需求文档怎么写、测试怎么组织、一个想法怎么变成产品。这些东西,说它是知识吧,又不太像。它不是“巴黎是法国首都”那种可以查到的事实,而是一种经验的结构化表达,是在一次次实践中提炼出来的东西。

它也不是纯粹的经验。普通经验是模糊的、个人的、讲不清楚的。但我做的事情,是把经验压缩成模板和流程,让它可以被复用,甚至可以被AI理解和执行。当我做一个提醒喝水的App,我其实在回答一系列具体问题:什么频率合理?什么语言不会引起反感?什么节奏更容易形成习惯?这已经是行为科学、产品设计、认知心理学的交叉地带了。

如果一定要给这类东西起个名字,我倾向于叫它:结构化认知资产。

名字起好了,但一个更根本的问题随之而来:它真的算“资产”吗?还是只是一堆听起来很专业的文档?

2

判断一样东西算不算资产,我用一个朴素的标准:能不能在未来持续带来收益,并且可以被持有、迭代、转移。

按这个标准,它完全是资产。它可以复用——同一套结构能反复用在不同项目上。它可以迁移——换了团队、换了领域,我仍然能带走。它可以增值——用得越多,迭代得越完善,具备复利效应。它也可以衡量——交付速度、缺陷率、返工率,都看得见变化。

当然,它也有折旧。技术迭代会让模板过时,缺少验证机制会让文档变成精致的自我感动。所以它是资产,但需要持续维护。不更新、不验证,就会折旧成负债。

一个结构,如果能被你反复使用,能被AI理解,能让效率指数级提升,那它就是一种新的资本形态。不是金融资本,而是认知资本。

认知资本的概念听起来很美。但这里面有一个陷阱:谁都可以写模板,谁都可以搭流程,凭什么你的就比别人的值钱?换句话说,是什么决定了认知资产的质量?

3

答案是品位。

我给自己定了一条规矩:只做自己常用的App。自己不用的,不开发。这不是任性,而是在主动筛选——只有我愿意天天用、愿意长期打磨的东西,才值得投入时间。

在AI时代,“可实现的功能”正在迅速变得廉价。AI写代码越来越快,写文档越来越好。那么,真正稀缺的是什么?是判断。该做什么?什么算好?什么值得反复打磨?

我有胆囊结石和肾结石的小毛病,多喝水有助于改善。于是我做了一款提醒喝水的App,不是为了上架,不是为了给别人用,就是给自己用的。只有这样,我才是自己最严苛的用户,才能获得最真实的反馈。

我做喝水提醒、做冥想、做减少久坐的App,看起来是好几个产品,但它们共享同一套内核:我的交互风格、提醒语气、频率节奏,还有“不打扰”的边界感。这不是几个功能的堆砌,这是一个人品位的外化。

品位不是“我觉得好看”这种模糊的感觉,它可以被写成明确的原则。比如:不做连续打卡来羞辱用户。提醒要温和,不要控制。追求低摩擦、低噪音、可退出。App存在的目的是让用户最终不需要它。当品位能被写成规则,它就从感觉变成了可传承的资产。

品位能写成规则,这很好。但规则不是凭空冒出来的。没有人天生就知道“提醒频率多少合适”或者“什么语气不会让人反感”。这些判断需要一种特殊的土壤才能长出来。

4

这个土壤就是:用。自己做,自己用,反馈极快。

我用Codex帮我复刻排行榜前列的App,速度非常快。选中喜欢的之后,我自然就会追问:为什么它能排在前面?为什么会受欢迎?它的设计逻辑是什么?好奇心就是这样被点燃的。好奇心一来,学习就自然发生了。我不需要逼自己学,我是想知道。

更重要的是,自用产品天然形成了一个正反馈回路。App让生活变好了——喝水真的更规律了,身体确实更舒服了——我就更愿意继续用、继续改。改的过程提升了工程能力和产品判断力,我就更有本事把它做得更好。做得更好又带来更多反馈,循环自我加速。

很多人学东西学不下去,是因为只有“看书听课”这一层。没有“动手做”,没有“亲自用”。三层齐了,才会越做越上头。生活改善和技术成长同时发生,一个小App,变成了一个不断自我增强的飞轮。

品位就是在这个飞轮里磨出来的。每转一圈,判断力就更准一点,标准就更清晰一点,资产就更硬一点。

到这里,我们已经知道了三件事:有一种东西叫结构化认知资产,它具备复利效应;品位决定了这些资产的质量;而品位本身来自“自己做、自己用”的飞轮。但这就引出了一个更大的问题:当AI越来越强,人在这个系统里到底扮演什么角色?

5

回头看,我觉得答案藏在前面讲的这些事情里。我做模板,是在定义结构。我定规矩,是在设定标准。我只做自己用的App,是在决定什么值得做。写文章是把经验变成文字,做模板是把经验变成结构,做App是把经验变成产品。而品位,是贯穿其中的那条线。

AI擅长执行,人擅长定义。我沉淀工作流、积累助推模式、打磨品位原则,本质上是在构建“可被AI放大的结构”。别人也有AI,但没有我的结构、我的标准、我的系统。这种能力不怕AI变强,因为竞争的不是“谁写代码更快”,而是“谁判断得更准,迭代得更稳”。

我喜欢做这件事。不是因为它赚钱,不是因为它时髦。而是因为我自己需要它,我每天都在用它,它让生活确实变好了,能力也确实变强了。

也许在AI时代,人最该积累的不是代码,不是知识点,而是品位——你对“什么是好”的判断力。品位需要亲自使用、亲自感受、亲自打磨。它不能被AI替代,不能被快速复制。

这是最慢的资产,也是最硬的资产。

那个带着A3大图敲门的瑞典少年

发表于 2026/02/20 | 分类于 AI专题

风格参考:Malcolm Gladwell(《引爆点》《异类》作者)—— 场景开头,层层剥洋葱,用悬念驱动叙事,最后揭示反直觉的结论。

那扇门

斯德哥尔摩,2019年冬天。

一个18岁的年轻人站在一家电商公司的前台,手里夹着一个文件夹。他没有预约,没有名片,没有大学学历——事实上,他连高中都没读完。前台问他找谁,他说想见电商业务的负责人,或者CEO也行。

前台的表情可以想象。在瑞典的商业文化里,陌生人不打招呼就上门拜访,约等于在地铁上跟陌生人搭话——不违法,但非常不寻常。更何况这个人看起来明显还未成年。

但这个年轻人打开了文件夹。里面是一张A3大小的对比图:左边是这家公司网站目前的商品推荐结果,右边是他用自己训练的模型生成的推荐结果。两列截图并排,差异肉眼可见——右边的推荐更精准,商品关联性更高,像是真的读懂了用户在想什么。

负责人出来了。看完对比图,第一反应是震惊,第二个问题是“这个怎么上线”。

年轻人当场从口袋里掏出一段写好的脚本代码,打开对方网站的浏览器控制台,粘贴,执行。推荐结果实时替换,页面上还自动跑起了A/B测试模块,跟踪两套方案的转化率对比。负责人盯着屏幕看了十几秒,抬头说:“我们谈谈价格。”

这一切发生在第一次见面的前十五分钟里。

这个年轻人叫Gabriel Petersson。五年之后,他加入了OpenAI,成为Sora团队的研究工程师。

但在这个故事的起点,他只是一个辍学生,连“机器学习”三个字到底是什么意思都说不太清楚。

那通电话

要理解Gabriel后来做的一切,你需要先回到更早的一个时刻。

那是一个普通的周末下午。Gabriel还在瑞典读高中,编程经验约等于零。他的表兄打来电话,说自己有一个创业想法——做一个电商推荐系统,卖给瑞典的在线零售商。他需要Gabriel马上过来斯德哥尔摩帮忙。

Gabriel说,今晚有个派对。

表兄说,现在就来。

他买了下一班车票。之后再也没有回到学校。

用Gabriel自己的话说,辍学并不是什么深思熟虑的人生决策。没有深夜辗转的权衡利弊,没有跟父母长谈后含泪告别,也没有“我要走一条不同的路”这种宣言式的顿悟。它更像是被一个足够紧迫的机会推着走——走着走着,就回不去了。

到了斯德哥尔摩之后,他面对的第一个问题不是“怎么写代码”,而是“怎么把东西卖出去”。冷邮件没人回——一个没有公司背景、没有客户案例、甚至没有正式网站的两人团队,发出去的邮件大概率被当成垃圾邮件。电话打了也很难让人信任一个没有技术背景的18岁少年。你可以想象那个场景:电话接通,对方问“你们公司在哪?团队多大?有什么成功案例?”,他一个都答不上来。

于是他想到了上门推销,也就是你在开头读到的那个场景。

他后来承认,这种做法留下了很多技术债——为了快速获客,他们几乎不考虑代码的可维护性和系统的可扩展性。但这段经历的真正价值不在于技术,而在于一个心理上的翻转:当你必须对结果负责的时候,你学东西的速度会快到自己都不敢相信。

但这里有一个问题:一个看不懂Andrew Ng机器学习课程、以为自己“太笨了”的高中辍学生,到底是怎么学会训练推荐模型、写爬虫、做A/B测试的?

答案藏在一个大多数人忽略的地方。

那些很烂的游戏

在成为那个带着A3大图上门推销的人之前,Gabriel的技术学习史可以用一个词概括:挫败。

表兄最初教他Java,两个人一起写了个回合制小游戏。Gabriel在访谈里对那个游戏的评价是:“很烂。”后来他上Udemy学Python,跟着课程做了另一个游戏,评价同样是:“也很烂。”他还尝试过Andrew Ng在Coursera上的机器学习课程——那是全球最受欢迎的AI入门课之一——但完全看不懂。他说他当时以为问题出在自己身上,以为自己就是不够聪明。

如果故事在这里结束,它只是一个“有人尝试学编程没学会”的平凡故事,全世界每天都有无数人经历着同样的事。

有意思的是接下来发生的事。

Gabriel创业之后,面对真实的客户需求,他突然开始学会了那些以前怎么都学不会的东西。不是因为他变聪明了,也不是因为他找到了更好的教程。是因为环境变了——以前学编程是“我在看一个课程”,现在学编程是“如果我明天搞不定这个功能,客户就流失了”。

他说了一句让主持人沉默了好几秒的话:没有压力我几乎学不会东西。

这句话听起来像是在为懒惰辩护,但认知科学家可能不会这么看。

两条路

教育研究者通常把学习路径分成两种:bottom-up和top-down。

Bottom-up是学校的默认模式。先学线性代数,再学概率论,再学统计学习,再学神经网络,最后做一个项目。这像盖房子——先打地基,再砌墙,再封顶。结构完整,循序渐进。好处显而易见。

坏处也显而易见:你可能在打了两年地基之后,发现自己对这栋房子毫无兴趣。

Top-down是另一种路径:先接一个真实的任务——比如给客户做一个推荐系统——然后在做的过程中遇到不懂的地方,当场补。发现不懂推荐算法,去查。发现推荐算法里有矩阵运算,去学。发现矩阵运算需要线性代数的直觉,再去补。哪里漏水就修哪里。

Gabriel走的就是top-down。

问题是,为什么学校几乎不用这种方式教学?

答案很现实:top-down需要老师持续判断“这个学生此刻卡在哪里”、“下一步该给他补什么”——这等于给每个学生配一个全天候的私人导师。在一个四十人的班级里,这是不可能的。所以学校选择了bottom-up。不是因为它效果最好,而是因为它是唯一能规模化的方案。

这个困境在教育史上并不新鲜。1984年,教育心理学家Benjamin Bloom发表了一篇著名论文,发现接受一对一辅导的学生,表现能超过常规课堂教学中98%的学生。他把这个发现叫做“两个标准差问题”(2 sigma problem)——私人辅导比课堂教学好两个标准差,但你没有办法给每个学生都配一个私人导师。这个问题困扰了教育界四十年,没有人找到解决方案。

认知科学家John Sweller提出的“认知负荷理论”可以进一步解释两种路径的效率差异。人的工作记忆容量极其有限,一次能处理的独立信息块不超过四到七个。Bottom-up路径的一个隐性成本在于:当你学到第三层知识的时候,你已经记不清第一层为什么重要了,而且你完全不知道眼前这些知识将来会用在哪里。大量的认知资源被浪费在“维持意义感”上——你不停地问自己“我为什么要学这个”,这个问题本身就在消耗你有限的工作记忆。

Top-down路径则不存在这个问题。你始终有一个具体的、紧迫的目标——让系统跑起来,让客户满意,让bug消失——每一块新知识都自动嵌入了上下文,不需要你额外花精力去给它“找意义”。

但top-down有一个致命的前提条件:你需要一个能随时回答你问题的导师。四十年来,没有人能规模化地满足这个条件。

然后,ChatGPT出现了。

Bloom的“两个标准差问题”,在技术层面上,突然有了一个接近可行的解决方案。

递归

Gabriel在访谈里描述了他用AI学习的完整流程。

如果他想学机器学习,他会先问ChatGPT:我该做什么项目?让它帮忙设计一个项目计划。然后让它写出完整代码。代码一定会报错——这反而是好事,因为从修bug开始学,比从空白页面开始学要高效得多。他一步步把程序跑起来。能跑之后,盯着某个模块追问:这段在做什么?为什么这个函数能让模型学到东西?ChatGPT会提到反向传播和矩阵乘法。他就继续追问数学直觉——不要公式,给我类比,给我示意图,给我一个“如果不这么做会怎样”的反例。

一层一层往下钻,直到触及他能理解的基础。然后回到项目,继续往前走。

访谈的主持人把这个方法类比为费曼学习法——最好的学习方式是把你理解的东西讲给别人听,让别人检查你的理解对不对。Richard Feynman说过,如果你不能把一个概念用简单的语言解释给一个小孩听,你就还没真正理解它。在ChatGPT的时代,“别人”可以是AI。你把自己的理解讲给它听,它告诉你哪里对、哪里不对、哪里只对了一半但遗漏了关键条件。

Gabriel给这套循环取了一个名字:递归式知识填补(recursive knowledge-filling)。

“递归”这个词来自计算机科学——一个函数调用自己来解决问题。你把一个大问题拆成结构相同的小问题,对每个小问题再做同样的拆解,直到触及最基本的单元。Gabriel的学习过程就是递归的:做→卡住→追问→获得解释→对解释中不懂的部分继续追问→获得更底层的解释→直到触及自己能理解的地方→返回,继续做。

这里有一个关键的细微之处,很容易被忽略:他不是在用AI跳过基础知识。线性代数、概率论、微积分——这些东西他最终都学了。他只是改变了学习的顺序:不是先学完所有基础再动手,而是先动手,在需要的时候再补基础。该学的一样都没少,只是每一块知识都带着明确的目的——“我学这个是因为我的推荐系统需要它”。

他说,如果只能用一个词来总结这套方法最关键的能力,那就是:知道自己哪里没懂。

这话听起来像是废话,做起来极难。大多数人在学习时的默认模式是“感觉大概懂了”就往下走——这相当于在承重墙上留了一条裂缝,短期看不出问题,但地基是虚的。心理学家有一个专门的术语来描述这种现象:流畅性错觉(illusion of fluency)——当一段解释读起来通顺、看起来合理时,你的大脑会自动把“读懂了”等同于“学会了”。Gabriel的方法之所以有效,是因为“用自己的话复述给AI听”这个动作,强行打破了流畅性错觉:你以为自己懂了,但当你尝试复述的时候,你会发现有些环节你根本说不清楚。

作弊还是学习

在继续讲Gabriel的职业故事之前,有一个相关的插曲值得停下来讲。

ChatGPT在2022年底推出之后,全球的教育系统几乎同时发生了一场小型恐慌。学生的第一反应是“太好了,可以帮我写作业”。老师的第一反应是“完了,大家要作弊,必须禁止”。

这两个反应互相强化,形成了一个闭环。学生看到AI被禁止,确认了它是一种“作弊工具”——既然是作弊工具,那它的唯一用途就是帮我偷懒。老师看到学生果然在用AI写作业,确认了自己的判断——果然是作弊源头,必须严防死守。

在这种叙事环境下,“AI可以用来学习”这个想法几乎没有生存空间。没有人会自然而然地想到:等一下,也许我可以不让它替我写作业,而是让它教我怎么写?

Gabriel在访谈里提到一个有趣的变化:最近他在瑞典的一些朋友开始用ChatGPT做一件不同的事——把历年考试题丢给它,让它总结核心概念,然后生成同类型的新题来练习。他们不是在让AI替自己考试,而是在让AI帮自己备考。同一个工具,用法翻转了180度。

这个差别看起来很小,但它背后的认知差距是巨大的。你把AI当答案机,它就只能强化你的依赖——你越用它代劳,你自己的能力越退化。你把AI当教练,它才会强化你的能力——每一次追问都在迫使你思考,每一次复述都在巩固你的理解。

区别不在工具,在人。

真正稀缺的东西

现在让我们回到Gabriel的职业轨迹。

到这里,我们可以回答开头提出的那个问题了:一个看不懂基础课程的辍学生,是怎么走到OpenAI的?

答案不是“他是天才”。他自己都说他不是。

答案也不是“辍学是一种优势”。访谈材料里反复强调,大学提供的社交网络、资源和视野仍然有很高的替代成本,不鼓励任何人模仿他辍学。

真正的答案,藏在访谈中一个反复出现的词里:agency——能动性。

当知识获取的成本趋近于零——你可以随时问ChatGPT任何问题、获得任何领域的入门解释——“知道很多东西”这件事本身就不再是稀缺资源了。稀缺的变成了另外一些东西:谁愿意动手?谁能定义问题?谁敢对结果负责?

Gabriel从最早带着A3大图上门推销的那一天起,就一直在做同一件事——把能力变成可见的结果。他不跟客户谈学历、背景和资质,他直接展示效果对比,当场用代码证明。

后来他要去美国工作,面临签证问题。没有高中学历,传统的移民路径对他来说几乎全部封死。他走的是O-1A——杰出人才签证,通常需要学术论文、国际奖项、行业认可等“硬证据”。他一个都没有。他没有论文,没有学位,没有任何传统意义上的学术成果。

他做了一件跟上门推销异曲同工的事:把自己在Stack Overflow等技术社区发布的高质量回答和贡献整理成证据包,论证这些贡献具有行业影响力和同行认可度。这些东西在传统标准里不算“学术成果”,但它们满足O-1A签证的核心要求——证明申请者在其领域具有“杰出能力”。

申请被批准了。

不是“请相信我”,而是“来验证我”。

他在访谈中给了一个很实际的建议:如果你没有传统背景做背书,就做一个简单但有效的demo,让别人三秒内看懂你做了什么。很多人误以为demo必须复杂,其实越简单越有力——因为复杂的东西需要解释,而解释的过程中对方的注意力早就散了。如果有机会,主动提出短期试用或者帮忙做一个小项目,让对方零风险地评估你。你承担所有的风险,对方只需要打开眼睛看。

这套策略之所以有效,是因为它精确地回应了AI时代一个底层结构的变化:当获取知识的门槛被AI抹平之后,真正区分人的,不再是你脑袋里装了多少东西,而是你愿不愿意走出去敲那扇门。

洋葱的最里层

每一个好故事都有一个容易被误读的表层。

Gabriel Petersson的故事,表层是“辍学少年逆袭进入OpenAI”。如果你只记住这一层,你会得出一个危险的结论——学历不重要,学校没有用。

但如果你像剥洋葱一样一层层剥下去,你会看到完全不同的东西。

第一层:他不是因为讨厌学校而辍学,他是被一个真实的项目拽走了——压力和交付的截止日期成了他真正的“课程体系”。

第二层:他不是用AI跳过了基础知识,他是用AI把基础知识从“预先储备”变成了“按需补齐”——该学的一样都没少学,只是学的顺序变了。

第三层:他不是在证明“不需要学习”,他是在证明“学习的方式需要改变”——从被动接收变成主动追问,从看懂变成能推进。

第四层:他不是在证明“个人英雄主义”,他是在证明一种可复用的方法论——找到一个必须交付的真实任务,卡住就追问,追问到能继续做为止,然后把结果公开出来让世界验证你。

最里面一层,也是最重要的一层:在一个知识免费的时代,他用行动回答了一个所有人都在回避的问题——如果知识不再稀缺,那什么才稀缺?

答案是你愿不愿意动手。

1984年,Benjamin Bloom发现私人辅导比课堂教学好两个标准差。他把它当成一个“问题”——因为我们没有办法给所有人配私人导师。四十年后,ChatGPT在技术层面上接近了这个梦想,但Bloom当年没有预见到的是:即便你给每个人都配了导师,真正决定学习效果的,仍然不是导师有多好,而是学生愿不愿意开口问第一个问题。

2400年前苏格拉底说,他唯一知道的事情就是自己什么都不知道。在ChatGPT的时代,这句话或许需要一个更新版本:

你唯一需要知道的,是你接下来要做什么。

然后去做。

知识免费之后

发表于 2026/02/20 | 分类于 AI专题

风格参考:Morgan Housel(《金钱心理学》作者)—— 短故事引出普适原理,每节几乎独立,文字干净利落,金句密度高。

漏水的房子

1831年,迈克尔·法拉第发现了电磁感应。他没有上过大学。他14岁在一家装订作坊当学徒,每天接触大量书籍,但没人教他物理。他学物理的方式是——有一天顾客送来一本《大英百科全书》要求装订,他翻了翻,觉得有意思,就自己开始做实验。

他没有先修数学,没有先学牛顿力学,没有先搞懂欧姆定律。他直接动手做实验,卡住了就去找书看,看完了继续做。这就像住进一栋还没装修的房子,哪里漏水修哪里。

法拉第后来被公认为历史上最伟大的实验物理学家之一。如果他当年先去读一个物理学学位再开始做实验,电磁感应的发现可能会推迟很多年——因为当时的大学物理教育根本不教实验方法,只教数学推导。

两百年后,一个瑞典少年用几乎相同的方式学会了机器学习。


下一班车

Gabriel Petersson在瑞典读高中时,他的表兄打来电话,说要去斯德哥尔摩做一个电商推荐系统的创业项目,让他马上过来帮忙。Gabriel说今晚有个派对。表兄说现在就来。

他买了下一班车票,之后再也没回过学校。

五年后,他加入了OpenAI的Sora团队。

人们喜欢把这类故事读成“辍学天才逆袭”。但Gabriel本人反复强调,他不是天才。他试过Andrew Ng的机器学习课程,完全看不懂。他写的第一个程序是一个“很烂的回合制游戏”。他说过一句很诚实的话:没有压力,我几乎学不会东西。

有意思的不是他的天赋,而是他的方法。


18岁的推销员

到了斯德哥尔摩之后,Gabriel面对的第一个挑战不是技术问题,而是没人买他的东西。

冷邮件没人回。电话建立不了信任。一个18岁的无名少年,没有公司背景,没有客户案例,试图说服成熟的电商企业更换推荐系统——这在任何一个商业教科书里都叫“不可能的推销”。

他做了一件大多数人不会做的事:上门。

提前爬取客户网站的数据,训练一个新的推荐模型,把“旧推荐 vs 新推荐”的效果对比打印在A3大图上,带着文件夹一家家敲门。见到负责人就打开文件夹。对方看完对比图,问“怎么上线”。他当场在浏览器控制台里跑代码,实时替换推荐结果。

不说“请相信我”。说“你自己看”。

这个推销方式粗糙、不可扩展、留下了一堆技术债。但它传达了一件事:我的能力不需要你的信任,只需要你的眼睛。

五年后他申请美国杰出人才签证时,用的是同一套逻辑。


方向相反的两条路

学习有两条路。

一条是自下而上:先学基础,再学进阶,再学应用,最后做项目。这是学校的路。它像搭积木——从底层一块块往上垒,结构稳固,但速度很慢,而且你在搭到第三层的时候可能已经忘了为什么要搭这个东西。

另一条是自上而下:先接一个真实的任务,做的过程中卡住,卡住了就去补那一块缺失的知识,补完继续做。这是Gabriel的路。它像修房子——先住进去,哪里漏水修哪里。

学校选择第一条路,不是因为它效果好,而是因为它是唯一能同时教四十个人的方法。自上而下的路径需要一个随时能回答你问题的导师,在传统教育中,这个条件不可能满足。

1984年,教育心理学家Benjamin Bloom做了一个实验:接受一对一辅导的学生,表现超过了98%接受常规课堂教学的学生。Bloom把这个发现叫做“两个标准差问题”——我们知道最好的教学方式是什么,但我们做不到,因为没有那么多导师。

四十年后,ChatGPT部分解决了这个问题。不完美,但足够用。


递归

Gabriel给他用AI学习的方法取了一个名字:递归式知识填补。

操作很简单。想学机器学习,就先让ChatGPT设计一个项目、写出代码。代码会报错。从修bug开始,把程序跑起来。跑起来之后追问:这段代码在做什么?为什么它能让模型学东西?ChatGPT提到矩阵乘法,那就继续追问矩阵乘法的直觉。追到你真正理解的地方为止,然后回到项目,继续做。

一层一层往下钻,一层一层再返回。像递归函数一样,直到触及最基本的单元。

有人会问:这跟“跳过基础”有什么区别?

区别很大。跳过基础是不学。递归式填补是在需要的时候学,带着明确的上下文和目的学。最终该学的东西一样都没少,只是顺序变了。

一个类比:你要从北京去上海。自下而上的方式是先学会造汽车,再学会修路,再学会导航,最后出发。递归的方式是先买一张票出发,路上遇到问题再解决——但你最终一样会到达上海,而且你对路况的理解可能比造车的人更深,因为你是真正走过这条路的人。


费曼的升级

Richard Feynman有一条著名的学习原则:如果你不能用简单的语言把一个概念解释给别人听,你就还没真正理解它。

这条原则有一个实操困难:你得找到“别人”。而且这个“别人”最好懂得比你多,能检验你的解释对不对。

Gabriel把“别人”换成了ChatGPT。他把自己的理解讲给AI听,AI告诉他哪里对、哪里不对、哪里只对了一半。

他说这套方法里最关键的一个能力是:知道自己哪里没懂。

大多数人学东西的默认模式是“感觉差不多懂了”就翻过去。这不是学习,这是划水。真正的学习发生在你逼自己说出“等一下,这里我其实不理解”的那一刻。

心理学家有一个词叫“流畅性错觉”——当一段话读起来很顺畅的时候,你的大脑会自动把“读懂了”等同于“学会了”。这两件事完全不是一回事。你读懂了一篇关于游泳的文章,不代表你会游泳。

Gabriel的方法之所以有效,是因为“用自己的话复述”这个动作,强行打破了流畅性错觉。你以为你懂了,但当你开口讲的时候,你会发现有些地方你根本说不清楚。


两种用法

ChatGPT刚推出的时候,学生的第一反应是“太好了,能帮我写作业”。老师的第一反应是“完了,必须禁止”。

这两个反应合在一起,把AI锁死在了“作弊工具”的定位上。

但工具不决定用法,人决定。

你把AI当答案机,它给你答案,你的能力原地不动。你把AI当教练——追问、复述、让它检查你的理解、让它给你反例——你的能力每一轮都在增长。

同一个工具,用法不同,结果天壤之别。这就像钱:有人用它买彩票,有人用它买书。钱没有变,变的是拿钱的人。

Gabriel提到一个有意思的趋势:他在瑞典的一些朋友开始把历年考试题丢给ChatGPT,让它总结核心概念,再生成同类型的新题来练习。不是让AI替自己考试,而是让AI帮自己备考。

这是一个180度的翻转。但它需要一个前提——你得先意识到,AI不只是一台复印机。


信号

Gabriel没有学位,但他持续拿到了好机会。他是怎么做到的?

从最早上门推销推荐系统那天起,他就在做同一件事:把能力变成别人看得见的结果。

不说“请相信我有能力”,而是打开文件夹,展示效果对比图,当场在浏览器里跑代码。后来申请美国的杰出人才签证,没有论文和学位来背书,他就把自己在技术社区发布的高质量内容整理成证据包,作为学术贡献的替代证明。

大多数人在证明自己的时候,习惯递上一份简历,上面列着学校、学位、公司名称。这些是代理信号——它们不直接说明你能做什么,只是暗示“能拿到这些标签的人大概不会太差”。

Gabriel用的是直接信号:这是我做的东西,这是它的效果,你来判断。

代理信号需要别人的信任。直接信号只需要别人的眼睛。

在简历被筛掉的世界里,一个能跑的demo胜过一页纸的经历。


复利

Albert Einstein可能从来没有说过“复利是世界第八大奇迹”这句话。但这并不影响复利本身是一个极其强大的概念。

知识也有复利效应。

当你解决了第一个客户的推荐系统问题,你学到的不只是“如何做推荐系统”。你还学到了如何跟客户沟通需求,如何在浏览器控制台里调试代码,如何把技术效果翻译成商业语言。这些能力会在你解决第二个、第三个、第十个客户问题的时候反复派上用场,而且每一次使用都让它变得更强。

Gabriel五年内从零基础走到OpenAI,看起来像是火箭式跃迁。但如果你拆开看,每一步都不大——每一步只是“解决了当下的一个问题”。它之所以最终产生了巨大的结果,是因为这些步骤是复利式累积的:每一个新能力都建立在之前所有能力的基础上,而且每一次积累都增加了下一次积累的速度。

这就是为什么“先动手”比“先准备”更有效。

你准备了三年再开始,你错过了三年的复利。而知识复利跟金融复利一样,真正产生巨大差异的不是利率高低,而是时间长短。越早开始,优势越大。


稀缺

经济学有一条最基本的道理:价格由稀缺性决定。

钻石贵,因为稀缺。空气免费,因为不稀缺。

知识曾经是稀缺的。获取它需要学费、时间、人脉和运气。所以“懂得多”是一种竞争优势,学历是它的证明。

现在知识不稀缺了。你可以在任何时刻、向ChatGPT问任何领域的任何问题,几秒钟得到一个80分的回答。

那什么变稀缺了?

是愿意动手的人。是能定义问题的人。是对结果负责的人。是在卡住的时候不翻过去、而是追问到底的人。

Gabriel在访谈里反复用一个词:agency。翻译过来就是能动性。

知识是原材料。能动性是把原材料变成成品的那双手。原材料可以免费获取,但那双手仍然稀缺。

一个有趣的推论:在知识稀缺的年代,“记忆力好”是一种优势——谁记得多,谁就知道得多。在知识免费的年代,记忆力的价值大幅缩水,因为任何你记不住的东西都可以在三秒内查到。取而代之变得重要的,是判断力——面对AI给你的十个答案,你能不能判断哪个最好?面对AI做不到的问题,你能不能定义出来?

记忆力是仓库。判断力是指南针。仓库可以外包给AI,指南针不能。


最后一件事

Gabriel的故事不是“学历无用论”。他自己都说,大学的社交、资源和视野有很高的替代成本。

他真正反对的,是一种更隐蔽的东西——把“我还没准备好”当作不动手的理由。

在知识稀缺的年代,“先准备好再出发”是合理的策略。学完课程再找工作,读完教材再做项目,打好基础再考虑应用。因为获取知识的成本很高,所以你必须先储备。

在知识免费的年代,这个策略的性价比急剧下降。你花三年“打基础”,等你觉得准备好了,世界可能已经换了一道题。

更好的策略是:先动手,遇到不懂的再去学。学完继续做,做完再回头看,你会发现自己比“准备好了才出发”的人走得更远。

这不是新道理。法拉第两百年前就是这么干的。

但在ChatGPT的时代,这条路变得比任何时候都更容易走。以前你“先动手再学”,卡住了可能要等几天才能找到答案。现在你卡住了,三秒钟就能问到。以前这条路上布满了沟壑,现在沟壑还在,但你手里多了一根拐杖。

唯一的门槛是——你得愿意迈出第一步。

而这个门槛,从来都不是知识的问题。

当知识免费之后,什么变贵了

发表于 2026/02/20 | 分类于 AI专题

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。

“人类最快的学习方式是top-down——从真实任务出发,遇到不懂的就当场补,再继续往下做。” —— Gabriel Petersson

引子:一个不该被当成励志故事的故事

最近有一个访谈在技术圈引起不少讨论。主角叫Gabriel Petersson,瑞典人,五年前还在读高中、几乎没有工程经验,五年后加入OpenAI,成为Sora团队的研究工程师。

这类故事很容易被读成“辍学逆袭”的鸡汤。但如果你只读到这一层,就浪费了它真正有价值的部分。

访谈材料里反复强调一点:这不是在鼓励辍学。 大学提供的社交网络、行业资源和认知视野,仍然有很高的替代成本。Gabriel自己也承认,没有文凭在一些场景确实是硬性限制——比如签证,没有学历让他的移民路径困难重重。

那这个故事的价值在哪里?在于它清晰地展示了一套“AI时代的学习操作系统”——项目驱动、top-down路径、递归追问、用结果替代信号。这套系统不依赖于“辍学”这个极端条件,任何人都可以部分复用。

下面我来逐一拆解。

一、压力即课表:为什么“先上场再学会”比“先学会再上场”更高效

1.1 一个18岁的上门推销员

Gabriel辍学的过程并没有什么戏剧性的深思熟虑。表兄打电话让他去斯德哥尔摩做一个电商推荐系统,他当天就买了车票,之后再也没回学校。

到了创业公司之后,他面对的第一个问题不是技术问题,而是销售问题:冷邮件没人回,电话建立不了信任。于是他发明了一套很“野”的打法——上门推销。提前爬取客户网站数据,训练一个新的推荐模型,把“旧推荐 vs 新推荐”的效果对比打印成A3大图,带着文件夹直接去敲门。

见到负责人之后,当场在浏览器控制台里粘贴脚本替换推荐结果,并内置A/B测试对比收益。很多客户第一次见面就切换了方案。

他也承认这种做法带来了大量技术债——为了获客速度,几乎不考虑系统的可维护性和可扩展性。但他认为在那个阶段,验证商业假设远比写出完美代码重要。这个判断本身就值得注意:它意味着他在18岁的时候就隐约理解了创业中“速度优先于完美”的权衡。

1.2 “没有压力我学不会东西”

主持人问他:一开始不会写代码,怎么学的?

他的技术学习史其实相当坎坷。表兄教他Java,写了个“很烂的回合制游戏”;后来上Udemy学Python,做了个“同样很烂的游戏”;试过Andrew Ng的机器学习课,完全看不懂,一度以为自己太笨。

真正的学习发生在创业之后。 客户集成、爬虫、推荐系统、A/B测试——问题一个接一个摆在面前,解决不了就丢客户。他去Stack Overflow查,找身边人问,硬着头皮试。他说了一句关键的话:没有压力我几乎学不会东西。

这里有一个微妙但重要的区别:不是所有压力都能促进学习,只有“有意义的压力”才行。 考试也是压力,甚至是很大的压力。但考试压力和客户交付的压力,在认知效果上有根本的不同。

1.3 动机研究怎么说

心理学家Edward Deci和Richard Ryan的“自我决定理论”(Self-Determination Theory)区分了两类动机:外在动机(为了考试、为了证书、为了避免惩罚)和内在动机(为了解决一个真正困扰你的问题、为了好奇心、为了胜任感)。大量实证研究表明,当学习者感到自主性(autonomy)、胜任感(competence)和关联性(relatedness)时,学习效果最好。

Gabriel的创业环境恰好同时满足了这三个条件:他自主选择了这条路(自主性),每一次成功交付都强化了能力感(胜任感),客户的即时反馈和表兄的合作关系提供了连接(关联性)。

相比之下,传统的课堂学习往往只满足关联性(同学关系),自主性和胜任感则严重不足——你不能选择学什么,考试只会告诉你“不及格”而不会给你“搞定了”的爽感。

换句话说,压力本身不是他的课程表,“有意义的压力”才是。 考试也是压力,但考试压力不满足自主性条件,所以效果远不如真实项目的压力。

1.4 心流研究的佐证

心理学家Mihaly Csikszentmihalyi在研究“心流”(flow)状态时发现,人在以下条件下最容易进入高效学习和工作状态:任务难度略高于当前能力,目标清晰,反馈即时。 这恰好描述了Gabriel的处境——客户的需求就是清晰目标,代码能不能跑就是即时反馈,而每个新客户的需求都比上一个稍难一点。

反观课堂学习:目标模糊(“学好线性代数”不是一个可操作的目标),反馈延迟(期末才知道成绩),难度要么太低(已经会的内容重复讲)要么太高(完全跟不上)。这几乎是心流的反面。

二、Top-down学习:一种被学校淘汰、被AI复活的路径

2.1 两种学习路径的效率差异

访谈中最有方法论价值的一段,是Gabriel对学习路径的判断:人类最快的学习方式是top-down。

什么是top-down?从一个真实的任务出发,做的过程中遇到不懂的就当场补,补完继续做。与之相对的是bottom-up:先修线性代数,再修概率论,再修统计学习,再修神经网络,最后做项目。

用一个建筑类比:bottom-up是“先设计完整蓝图,再按图施工”;top-down是“先住进去,漏水了修漏水,断电了修断电”。前者适合建摩天大楼,后者适合改造一栋够住的房子。大多数人的学习目标,更接近“改造一栋够住的房子”。

2.2 认知负荷理论的解释

认知科学家John Sweller提出的认知负荷理论(Cognitive Load Theory)提供了一个理解框架。人的工作记忆一次能处理的独立信息块不超过4-7个——这个数字从1956年George Miller发表经典论文以来就没有被推翻过。

Bottom-up路径有一个隐性成本:外在认知负荷过高。 当你学到第三层的时候,你已经记不清第一层为什么重要了,而且你完全不知道这些知识将来用在哪里。大量认知资源被浪费在“维持意义感”上——“我为什么要学这个?”“这东西以后到底有什么用?”这些问题本身就在占用你宝贵的工作记忆。

Top-down路径没有这个问题。你始终有一个具体目标(让系统跑起来、让客户满意),每一块新知识自动嵌入上下文(“我学矩阵乘法是因为推荐系统需要它”),外在认知负荷被压到最低,几乎所有的认知资源都投入在了“理解新知识”本身。

2.3 学校为什么不用top-down

答案很简单:top-down无法规模化。

它要求老师持续判断“这个学生此刻卡在哪里”、“下一步应该补什么”——等于给每个学生配一个全天候私人导师。在40人的班级里不可能做到。所以学校选择了bottom-up,不是因为效果最好,而是因为它是唯一能规模化的方案。

1984年,教育心理学家Benjamin Bloom发表了著名的“两个标准差”研究:接受一对一辅导的学生,表现比课堂教学的学生高出两个标准差,也就是超过98%的对照组学生。这个效果量在教育研究中几乎是前所未有的。Bloom把它当成一个“问题”——我们知道什么是最有效的教学方式,但我们做不到。

这是教育领域一个经典的效率-规模权衡:最高效的学习方式往往是最不可规模化的,最可规模化的学习方式往往是最低效的。

2.4 ChatGPT改变了什么

ChatGPT——以及所有大语言模型对话工具——做的事情,本质上是把top-down学习的规模化约束打破了。

以前,你如果想在做项目的过程中随时追问、随时获得定制化的解释,你需要一个私人导师。好的私人导师时薪几百到几千元,而且你得迁就他的时间表。现在,ChatGPT可以24小时扮演这个角色:你卡在矩阵乘法上,它给你讲矩阵乘法;你卡在反向传播上,它给你画示意图;你不确定自己的理解对不对,把理解讲给它听,它逐句检查。

当然,ChatGPT不是完美的导师——它会犯错,有时候错得很隐蔽。但即便考虑到错误率,它的可用性和响应速度仍然远超任何人类导师。而且它的错误是可以被发现的——你可以让多个模型交叉验证,或者回到实际代码里跑一下看看结果对不对。

这不是“用AI作弊”。这是top-down学习第一次有了可规模化的基础设施。 Bloom四十年前提出的“两个标准差问题”,在技术层面上开始有了接近可行的解答。

2.5 一个容易被忽略的前提

需要强调的是,ChatGPT满足的是top-down学习的“导师”需求,但top-down学习还有一个前提条件是它满足不了的:你必须有一个真实的、必须交付的任务。

没有任务驱动的top-down学习是不存在的。如果你只是坐在那里问ChatGPT“教我机器学习”,那本质上还是bottom-up——你让AI当老师给你从头讲起,只不过换了一个更有耐心的老师而已。

真正的top-down是你先有一个项目,在做的过程中碰到了具体的、明确的障碍,然后你带着这个障碍去问AI。问题的质量决定了学习的质量,而问题的质量取决于你是否在真正做一件事。

三、递归式知识填补:把AI变成苏格拉底

3.1 一个可操作的循环

Gabriel给他的学习方法取了一个名字:递归式知识填补(recursive knowledge-filling)。

他举了一个具体例子:想学机器学习,先问ChatGPT该做什么项目,让它设计计划并写出完整代码。代码必然报错,于是从修bug开始把程序跑起来。跑起来之后,盯着某个模块追问——这段在做什么?为什么能让模型学习?ChatGPT提到线性代数和矩阵乘法,于是继续追问数学直觉、要类比、要反例,直到建立真正的理解。然后回到项目继续做。

写成循环,大致是:

动手(做具体任务)→ 卡住 → 追问(问到能继续为止)→ 把抽象变具体(要直觉、类比、反例)→ 反向输出(用自己的话复述,让AI纠错)→ 回到任务

3.2 费曼学习法的AI升级版

访谈主持人把这个过程类比为费曼学习法。Richard Feynman著名的学习原则是:如果你不能把一个概念用简单的话解释给别人听,你就还没真正理解它。

这个原则在传统环境下有一个实操困难:你去哪里找那个“别人”? 你总不能每学一个新概念就拉一个朋友来听你讲。而且朋友的知识水平不一定能检验你的理解是否正确。

ChatGPT解决了这两个问题:它随时可以充当“别人”,而且它有足够的知识储备来检查你的理解——不仅能告诉你对不对,还能指出你遗漏了什么、哪里只对了一半。

如果说费曼学习法是1.0版本(讲给别人听),那Gabriel的方法就是2.0版本(讲给AI听,让AI纠错,追问AI的纠错直到彻底理解)。

3.3 核心能力:知道自己哪里没懂

Gabriel说,这套方法最关键的底层能力是一个:知道自己哪里没懂。

这句话暗含了心理学家所说的元认知(metacognition)——对自己认知过程的监控和调节。元认知能力强的人,能够准确评估“我现在到底理解了多少”,而元认知能力弱的人,容易高估自己的理解程度。

Daniel Kahneman在《思考,快与慢》中讨论过一个相关的现象:人类天生倾向于“认知放松”(cognitive ease)——当一段文字读起来流畅、信息看起来熟悉时,我们会自动倾向于认为自己“已经懂了”,而实际上很可能只是“看过了”。

Dunning-Kruger效应也指向同一个问题:能力不足的人往往最不擅长判断自己能力不足。 你越不懂一个领域,你就越难意识到自己不懂。这是一个令人不安的悖论——恰恰是最需要学习的人,最不知道自己需要学什么。

Gabriel的方法为什么能部分破解这个悖论?因为“用自己的话复述给AI听”这个动作,强制把隐性的理解差距变成显性的。 你以为自己懂了,但当你尝试向AI解释的时候,你会发现有些环节你说不清楚——这就是你的认知缺口。

“看过”和“懂了”之间的差距,就是大多数人学习效率低下的根源。Gabriel的方法强制拉大了这个差距的可见度——因为你必须用自己的话复述、用AI检查,“假装懂了”的空间被压缩到了最小。

3.4 追问的三个层次

基于Gabriel的描述和费曼学习法的原则,我总结了一个实用的“追问三连”框架:

第一层:要直觉解释。 不要公式,不要术语,用最日常的语言和类比让我理解这个概念。如果AI给你一段充满术语的解释,那不是你理解了,是你被术语糊弄了。

第二层:要反例和边界条件。 在什么情况下这个结论不成立?有没有这个方法失败的案例?这一步的目的是建立“边界感”——不是死记一个结论,而是知道它在哪里成立、在哪里不成立。

第三层:反向复述。 用自己的话把理解讲回去,让AI检查。这是最容易被跳过的一步,也是最关键的一步。跳过它,你就停留在“看过”的层面;做了它,你才进入“懂了”的层面。

四、知识廉价之后,什么变贵了

4.1 能动性:AI时代真正稀缺的资源

Gabriel的故事容易被简化为“天赋”或“运气”。但访谈中反复出现的关键词指向了一个更底层的变量:agency(能动性)——你主动提出问题、定义需求、推动进程并对结果负责的意愿和能力。

为什么能动性在AI时代变得更重要?因为一个结构性的变化已经发生:

维度 AI之前 AI之后
获取知识 成本高(学费、时间、人脉) 成本趋近于零
获取示例代码 需要搜索、筛选、调试 直接生成
获取个性化解释 需要导师或专家 随时可得
定义问题 需要人来做 仍然需要人来做
选择方向 需要人来做 仍然需要人来做
持续推进 需要人来做 仍然需要人来做
承担结果 需要人来做 仍然需要人来做

上面三行的成本被AI大幅压缩了,下面四行几乎没有变化。这意味着,知识和信息不再是区分人的核心变量;真正区分人的,是谁愿意动手、谁能定义问题、谁能持续推进、谁对结果负责。

经济学的基本逻辑:当某种资源从稀缺变为充裕,与它互补的资源就会变得更值钱。 电力普及之后,会使用电力设备的工人变贵了。互联网普及之后,能生产优质内容的创作者变贵了。AI把知识变得廉价之后,能运用知识去解决问题的能动性就变贵了。

4.2 证据链:把能力变成信号

Gabriel在没有传统学历信号的情况下能持续获得机会,靠的是一套“证明策略”:

从最早上门推销推荐系统开始,他就在做一件事——把能力变成可见的结果。 不跟客户谈学历、背景和资质,直接展示效果对比,当场用代码证明。后来申请O-1A杰出人才签证时,他把在Stack Overflow等技术社区的高质量贡献整理成证据包,作为“学术成果”的替代证明——没有论文,就用社区影响力代替;没有学位,就用交付成果代替。

经济学家Michael Spence在1973年提出的信号理论(signaling theory)可以解释这里的逻辑:在信息不对称的市场中,求职者需要发送“信号”来证明自己的能力。传统上,最常用的信号是学历——因为它获取成本高,所以具有筛选功能。但学历是一种代理信号(proxy signal),它不直接证明你能做什么,只是间接暗示“能考上好大学的人大概率能力不差”。

Gabriel做的事情是用直接信号替代代理信号——不是“我有学位所以我可能能干活”,而是“这是我的作品、这是效果数据、这是第三方评价,你自己判断”。

在传统的劳动力市场中,代理信号之所以有效,是因为验证直接信号的成本很高——招聘方没有时间、精力和专业能力去评估每个人的实际作品。但AI时代正在降低这个验证成本。你可以快速做一个demo,对方可以快速评估;你可以在GitHub上展示代码,任何人都可以审查;你可以做一个短期试用项目,让结果说话。

他在访谈中给的建议非常具体:做一个简单但有效的demo,让对方三秒内看懂你做了什么。主动提出短期试用或免费帮忙做小项目,让对方低风险评估你。不要请求“相信我”,要提供“验证我”。

4.3 AI在教育中的集体误读

访谈里有一段非常现实的讨论。ChatGPT推出之后,学生第一反应是“太好了可以写作业”,老师第一反应是“完了大家要作弊必须禁止”。两个反应互相强化,形成一个闭环:AI在学校的叙事里被锁定为“作弊工具”。

这是一种集体误读。 它把AI最低层次的用法(替你生成答案)当成了AI的全部用法,忽略了真正有价值的那层——AI可以作为学习的加速器。

Gabriel提到一个有趣的变化:最近他在瑞典的一些朋友开始用ChatGPT把历年考试题丢给它,让它总结核心概念,然后生成同类型的新题来练习。不是让AI替自己考试,而是让AI帮自己备考。

这个区别看起来很小,但背后的认知差距是巨大的。你把AI当答案机,它就只会强化你的依赖。你把AI当教练,它才会强化你的能力。这不是工具的问题,是使用者的选择。

行为经济学家有一个概念叫“框架效应”(framing effect)——同样的信息,用不同的方式呈现,会导致截然不同的决策。AI在教育中的命运,很大程度上取决于它被如何“框架”——如果它被框架为“作弊工具”,学生就会把它当作弊工具用;如果它被框架为“学习教练”,学生才可能把它当教练用。目前的现实是,绝大多数教育环境都在强化前一种框架。

结语:一把新的尺子

最后,回到这个故事最容易被误读的地方。

Gabriel的故事不是“学历无用论”。他真正反对的不是学校本身,而是一种更深层的路径依赖——把“学习”当目的、把“打基础”当拖延的思维习惯。

这种路径依赖在知识稀缺的年代是合理的。获取知识成本很高,所以你必须先花几年时间储备,然后才能“上场”。但在AI把知识获取成本压到接近零的今天,这种路径依赖的代价变得前所未有地高。你花三年“打基础”,等你“准备好了”,问题和机会可能早就换了一茬。

经济学家Tyler Cowen有一个观点:在变化速度快的环境中,“行动的期权价值”远高于“等待的期权价值”。 你现在就动手做一个项目,即使做得很烂,你也获得了关于“下一步做什么”的信息。你坐在那里等自己“准备好”,你获得的信息是零。

如果只从这个访谈里带走一个判断,我建议是这个:

当知识不再稀缺,衡量一个人的尺子就不再是“你知道多少”,而是“你能用知道的东西做出什么”。 能动性、追问的耐心、把能力变成可验证结果的习惯——这些是新尺子上的刻度。

Gabriel的经历极端,不可照搬。但他的方法论——找一个必须交付的真实任务,在做的过程中卡住,卡住就追问,追问到能继续做为止——这是任何人明天就可以开始实践的。

不需要辍学,不需要搬去斯德哥尔摩,不需要做出一个推荐系统。你只需要找到一个足够真实的问题,然后动手。

AI 时代的职业图谱(PG 版)

发表于 2026/02/18 | 分类于 AI专题

“别只盯着模型多大、参数多少,真正决定 AI 未来的是资源约束、劳动形态和个人能力的重新定价。” — 熊辉

一个被问错了的问题

每当一波新技术浪潮到来,公众讨论中出现频率最高的问题永远是同一个:“它会取代我的工作吗?”

我想说,这个问题本身就问错了。

不是因为它不重要——当然重要,饭碗的事谁不关心。而是因为这个问题的框架暗含了一个错误假设:它假设存在一条清晰的分界线,线的一边是“会被取代的工作”,另一边是“不会被取代的工作”,你只要搞清楚自己站在哪一边就行了。

现实从来不是这样运作的。

历史上每一次重大的技术变革——蒸汽机、电力、互联网——都没有简单地“消灭”一批工作然后“保留”另一批。它们做的事情更微妙也更深远:它们改变了“价值”的定义本身。 蒸汽机出现之后,“力气大”不再等同于“有价值”;互联网出现之后,“信息多”不再等同于“有价值”。不是你的工作消失了,而是衡量你工作价值的那把尺子变了。

所以,真正值得问的问题不是“AI 会不会取代我”,而是——在 AI 时代,衡量一个人职业价值的尺子,会变成什么样子?

一旦你把问题换成这个,整个思考的方向就变了。你不再是站在原地恐惧地等待“被取代”的判决,而是开始主动地研究那把新尺子——它的刻度是什么?它量的是什么维度?它偏爱什么、忽略什么?

这恰好是熊辉在《太学》演讲中试图回答的问题。而他的回答,让我认真思考了很久。

从最不性感的地方开始

如果你去参加一场 AI 行业大会,你会听到无数人在谈模型、谈参数、谈 benchmark。但熊辉上台后做了一件反直觉的事情:他首先谈的是电力。

是的,电力。发电厂、输电网、冷却系统——这些工程师和投资人讨论 AI 时几乎不会提到的东西。

这看起来很不性感,但熊辉的逻辑链是这样的:大模型的训练和推理需要海量算力,算力需要芯片,芯片运行需要电力,而电力——这是关键——不是无限供给的。全球数据中心的用电量已经超过了很多中等国家的全年用电量,而且随着 AI 应用的爆发式增长,这个数字还在加速上升。

为什么这个判断重要?因为它颠覆了一个隐含的假设。

大多数人在思考 AI 的未来时,默认的假设是“算力会无限增长”——模型会越来越大,推理会越来越快,成本会越来越低,最终 AI 能做一切。这个假设在纯技术层面上也许是对的——摩尔定律的某种变体可能会继续生效。但在物理和经济层面上,它撞上了一堵墙:你不能从虚空中变出电力。

这让我想到了一个有趣的历史类比。

19 世纪中叶,英国正处于工业革命的巅峰。蒸汽机越来越高效,工厂越建越多,所有人都沉浸在技术进步的乐观情绪中。这时候,一个叫威廉·斯坦利·杰文斯的经济学家站出来泼了一盆冷水:他指出,蒸汽机效率的提升不会减少煤炭消耗,反而会因为降低了使用成本而导致煤炭需求暴增。英国面临的不是技术瓶颈,而是煤炭供给瓶颈。

杰文斯说对了。蒸汽机的普及最终确实让英国的煤炭消耗远远超出了所有人的预期。而真正在那个时代建立持久优势的,不是造蒸汽机最快的人,而是掌握了煤矿、铁路和基础设施的人。

今天的 AI 行业正在上演同样的故事。微软重启了核电站来给数据中心供电,亚马逊和谷歌在投资核聚变,OpenAI 的 CEO 个人往核聚变公司砸了数亿美元。这些举动的底层逻辑只有一个:在 AI 时代,电力是比模型更硬的护城河。

我之所以在这个看似与“职业规划”毫不相关的话题上花这么多篇幅,是因为它教给我们一种重要的思考方式:任何时候,当你试图判断一个趋势的走向时,不要只看它最炫的部分,要去找它最约束的部分。 系统的产出由最薄弱的环节决定,而非最强大的环节。

这个思维习惯如果迁移到个人职业规划上,意味着什么?它意味着:你不应该追着“最热门的技能”跑——因为最热门的地方恰恰是供给最充足的地方,也是竞争最激烈的地方。你应该去找那些“约束”所在的地方——那些大家忽略的、但系统没了它就转不动的环节。

这就自然引出了熊辉的第二个论点。

从“做事的人”到“编排事情的人”

让我先讲一个思想实验。

假设你是一个程序员。现在有两种工作方式摆在你面前:

方式 A:你坐在电脑前,从早写到晚,一天写 500 行代码。质量不错,效率也算高。

方式 B:你花一个小时想清楚任务怎么拆解,然后同时启动三个 AI 代理——一个写业务逻辑,一个写单元测试,一个做代码审查。你花两个小时在三个代理之间切换,检查它们的输出,修正方向,整合结果。一天下来,你产出了 3000 行经过测试和审查的代码。

方式 B 的产出是方式 A 的六倍。但请注意,你写的代码量反而更少了。你多出来的产出不是因为你打字更快了,而是因为你做的事情变了——从“写代码的人”变成了“编排代码生产流程的人”。

这就是熊辉所说的“人机协作新劳动体”的核心含义。

这个变化的深远程度,可能比大多数人意识到的更大。让我从几个角度来解释为什么。

首先,它改变了“能力”的定义。在传统的工作模式中,你的价值主要取决于你的“执行能力”——你写代码写得多好、你翻译翻译得多准、你分析分析得多深。但在新的模式中,你的价值越来越取决于你的“编排能力”——你能不能把一个复杂的问题拆解成多个可并行执行的子任务?你能不能为每个子任务设定清晰的质量标准?你能不能在多条工作流之间高效切换、发现问题、修正方向?

这是一种完全不同的技能集。有些人在旧体系里是顶尖执行者,但在新体系里可能不善于编排。反过来,有些人在旧体系里不是最快的执行者,但他们思维清晰、善于拆解问题、对质量有敏锐的直觉——这些人在新体系里可能会脱颖而出。

其次,它改变了“产能”的上限。一个人的执行能力有生理上限——你一天最多能高效工作八到十个小时,一年最多能掌握两三门新技能。但一个人的编排能力没有明确的上限——理论上,只要你能设计出足够好的工作流、建立足够可靠的质量检验机制,你可以同时管理任意多条自动化流水线。

这让我想到了金融领域的一个概念:杠杆。

在金融里,杠杆让你用少量本金撬动大量资产。AI 代理提供的是“认知杠杆”——让你用有限的判断力和决策能力,撬动远超个人产能的输出。但就像金融杠杆一样,认知杠杆也有风险:如果你的判断是错的,杠杆会放大你的错误。这就是为什么熊辉强调“证据链”——每条工作流都必须输出可追溯的日志、测试结果和回滚方案。没有证据链的认知杠杆,就像没有风控的金融杠杆——赚的时候很爽,爆的时候很惨。

最后,它改变了“面试”的内涵。熊辉预测,未来你去面试时带去的不只是简历,而是一整支“数字团队”。这话如果往深了想,它暗示着一种全新的雇佣关系:雇主买的不再是“你这个人八小时的时间”,而是“你加上你的数字团队所能交付的成果”。这意味着个体之间的产能差异可能会急剧拉大——不是因为人与人之间的能力差异变大了,而是因为杠杆效应会把微小的差异放大到巨大。

好的编排者和差的编排者之间的差距,可能不是两倍三倍,而是十倍二十倍。这是一个令人不安的推论,但逻辑上它站得住。

这里面还有一个微妙的心理障碍值得提一下。很多资深的专业人士——优秀的程序员、经验丰富的设计师——在面对这个转变时,会感到一种“身份感的丧失”。他们多年来建立自我认同的方式是“我是一个写出漂亮代码的人”、“我是一个设计出优雅界面的人”。让他们从“亲手做”转向“编排别人(或 AI)做”,感觉像是被剥夺了手艺人的尊严。这种情绪是真实的,也是合理的。但历史不会因为我们的情绪而暂停。印刷术出现的时候,最好的抄写员也不愿意放下羽毛笔。

真正稀缺的不是答案,是问题

现在让我们进入熊辉演讲中我认为最有洞察力的部分。

他说,在大模型时代,两种能力变得格外重要:提问力和鉴赏力。

这两个词听起来很抽象,让我把它们拆开来看。

先说提问力。

表面上看,“提问”是一件很简单的事——你有什么不知道的,就去问。但如果你认真想想,你会发现“提出一个好问题”其实极其困难。

什么是好问题?一个好问题应该满足几个条件:第一,它指向一个真正重要的未知领域,而不是一个已经有标准答案的已知问题;第二,它的范围足够具体,使得回答可以被验证,而不是一个大而无当的宏大叙事;第三,它能引出新的、非显而易见的发现,而不仅仅是确认你已经知道的东西。

科学史上最伟大的进步,几乎都始于一个好问题,而非一个好答案。达尔文没有“发明”进化论——他问了一个别人没有认真问过的问题:“为什么加拉帕戈斯群岛上不同岛屿的雀类长得不一样?”爱因斯坦没有“计算出”相对论——他问了一个看似荒唐的问题:“如果我以光速骑在一束光上,我会看到什么?”

在 AI 时代,“提问力”的重要性被进一步放大了。原因很简单:AI 是一个极其强大的“答案机器”,但它是一个极其糟糕的“问题机器”。 你给它任何问题,它都能给你一个看起来不错的回答。但它不会主动问你:“你确定你问对了问题吗?”它不会告诉你:“你应该先去搞清楚另一个问题。”它不会指出:“你问的这个问题基于一个错误的前提。”

这意味着,在人 + AI 的协作中,“提出正确的问题”这件事完全落在人的肩上。如果你问了一个错误的问题,AI 会很认真地给你一个精确但无用的答案——就像你在 GPS 里输错了目的地,导航系统会非常精确地把你带到一个你根本不想去的地方。更糟糕的是,AI 的回答往往看起来很专业、很自信、格式很漂亮,这会让你更难意识到自己问错了——GPS 的导航界面并不会因为目的地输错了而变得难看。

再说鉴赏力。

如果说提问力解决的是“问什么”,鉴赏力解决的是“怎么评判答案的质量”。

在 AI 能秒出答案的时代,“生产”不再是瓶颈。你可以让 AI 在几分钟内生成十份营销方案、二十段代码实现、五十个产品命名方案。瓶颈在于:从这些海量输出中,你能不能准确地挑出那个最好的? 更进一步,你能不能说清楚“好”的标准是什么?

这很像品酒。世界上有数不清的葡萄酒,大多数人喝起来觉得“差不多”。但一个训练有素的侍酒师能在盲品中区分年份、产区、甚至酿酒师的风格。他的价值不在于能生产更好的酒,而在于他的味蕾经过了足够多的训练,能感知到普通人感知不到的差异。

AI 时代的“鉴赏力”就是这种“训练过的味蕾”。它不是天生的,而是可以通过刻意练习来培养的。

熊辉分享了一个我觉得特别聪明的练习方法:多模型交叉验证。

操作很简单:把同一个问题同时抛给 GPT、Claude 和 Gemini,然后仔细对比它们的回答。如果三个模型的答案高度一致,说明这个问题的答案在训练数据中有充分的覆盖,大概率可信。但如果三个模型给出了截然不同甚至互相矛盾的回答——这才是最有意思的情况。

为什么有意思?因为模型的“集体困惑”往往指向了人类知识体系中的真正盲区。这些盲区可能是因为训练数据不足,可能是因为这个领域本身存在争议,也可能是因为这是一个还没有被系统化研究的新领域。

无论是哪种情况,这个“盲区”本身就是一个极有价值的信号。它告诉你两件事:第一,AI 在这里不可靠,你需要依赖自己的判断或去做一手调研;第二,这里有尚未被开发的认知领土——如果你能在这里建立起可靠的知识,你就拥有了 AI 无法提供的独特价值。

这就引出了熊辉的下一个论点——也许是他整个演讲中对职业规划最有操作性的一个。

为什么你应该去“没有数据”的地方

大多数关于 AI 时代的职业建议,说来说去就是两条:“学会使用 AI 工具”和“提升不可替代的软技能”。这两条都没错,但也都太笼统了——它们没有告诉你具体该往哪里走。

熊辉给出了一个出人意料的具体方向:去数据稀疏的地方。

让我解释一下这句话的含义,因为它比表面看起来深刻得多。

AI——特别是当前的大语言模型——的能力边界,本质上由它的训练数据决定。训练数据丰富的领域,AI 就强;训练数据稀疏的领域,AI 就弱。这不是工程能力的问题,而是底层逻辑决定的——你不可能从没见过的数据中学到模式。

所以,如果你想要在一个 AI 很强的领域跟它竞争——比如标准化翻译、模板化编程、通用数据分析——你面临的是一场你几乎不可能赢的消耗战。AI 更快、更便宜、不知疲倦、不会抱怨。

但如果你去一个 AI 的训练数据还不充分的领域呢?

这些领域通常有几个特征:高度本地化(信息只存在于特定地理区域或特定社群中)、高度隐性化(知识存在于人们的经验和直觉中,从未被写成文字)、高度情境依赖(正确的做法因时因地因人而异,没有标准答案)。

让我举几个具体的例子。

一个深耕中国某个三线城市商业地产十年的顾问,他脑子里关于“这条街的人流量什么时候最大”、“这个小区的居民消费习惯是什么”、“当地政府的规划思路是什么”的知识,在任何 AI 的训练数据里都找不到。这些知识是他用脚一步步走出来的,用眼睛一天天观察出来的。在可预见的未来,没有任何 AI 能替代他——不是因为 AI 不够聪明,而是因为这些数据根本不在线上。

一个在跨国公司做了二十年合规工作的法务专家,她对“这个特定行业在这个特定国家的灰色地带”的理解,对“这个监管机构的实际执法尺度”的感知,不在任何教科书或公开数据中。这些是她在无数次与监管者周旋、在无数次法律风险的刀刃上行走后积累下来的“身体知识”。

一个经验丰富的心理咨询师,她能在来访者说出第三句话的时候就感觉到“这个人真正的问题不是他说的那个”。这种直觉来自于几千个小时的面对面咨询经验,来自于对微表情、语调变化、身体语言的长期训练。这些东西不在文字记录里——即使有逐字稿,AI 也读不出那些“文字之间的东西”。

迈克尔·波兰尼在 1958 年提出了“隐性知识”的概念,一句话概括就是:“我们知道的,远比我们能说出来的多。”AI 只能学习被“说出来”(即被数字化、被写成文字、被录制成数据)的知识。所有那些“没有被说出来”的知识——经验直觉、情境判断、文化默契——都是 AI 的盲区。

所以,熊辉说的“去数据稀疏的地方”,翻译成操作语言就是:去那些需要用脚走、用眼看、用手摸、用心感受才能获取信息的地方。 在那里积累起你的独有知识库,然后——这是关键——用 AI 工具把这些独有知识的价值放大。

举个例子:那个三线城市的商业地产顾问,如果他只会用脚走、用眼看,他的服务范围就受限于他个人的时间和精力。但如果他把十年的经验沉淀成一套方法论,再用 AI 工具来辅助分析数据、生成报告、自动化日常调研——他的产能就可以突破个人极限,而他的核心竞争力(本地化的隐性知识)是任何人和任何 AI 都无法复制的。

这就是“数据稀疏”与“人机协作”两个论点的交汇处:去没有数据的地方获取独有资产,然后用 AI 的力量杠杆化这些资产。

这个策略为什么可行?因为它利用了 AI 的一个结构性弱点:AI 需要大量数据来训练,而数据的分布天然是不均匀的。热门领域数据充裕,冷门领域数据稀缺。这种不均匀性不是暂时的——它是由现实世界的物理结构决定的。你不可能把所有街道的人流量、所有会议室里的对话、所有人脑子里的直觉都变成训练数据。至少在可预见的未来不能。

所以,“去数据稀疏的地方”不是一个临时的投机策略,而是一个有结构性支撑的长期定位。

这其实也解释了为什么很多创业者天然就在做“数据稀疏区”的事——他们深入到一个具体的行业、一个具体的场景中,积累了大量一手经验,然后用技术工具来杠杆化这些经验。好的创业者从来不是在“热门赛道”上跟巨头正面竞争,而是在“别人看不上、看不见、看不懂”的地方扎根,等根扎深了再向外扩张。

人员、人才、人物

到目前为止,我们讨论了:该去哪里(数据稀疏的地方)、该怎么干活(一个人 + N 台机器)、该修炼什么能力(提问力和鉴赏力)。但还有一个更根本的问题没有回答:你要成为什么样的人?

熊辉借用他在人力资源研究中的分层框架,给出了一个简洁但深刻的三级模型:人员 → 人才 → 人物。

让我把这三个层级拆开来看,然后讨论它们在 AI 时代各自面临的命运。

人员,做的是重复性、可流程化的工作。输入明确,输出明确,中间过程可以标准化。在旧时代,这一层是劳动力市场的主体——大量的工人、职员、操作员。在 AI 时代,这一层首当其冲。不是因为 AI“抢了”他们的工作,而是因为他们做的工作本质上就是“执行明确的规则”,而执行明确的规则恰恰是计算机最擅长的事情。

人才,拥有专业技能,能解决非标准化的复杂问题。高级工程师、资深设计师、经验丰富的律师。这一层在短期内不会被 AI 取代,但面临持续的压力——因为 AI 的能力边界在不断扩张。今天 AI 做不好的事情,明年可能就能做了。如果你的价值仅仅在于“高质量执行”,那你的优势是一个不断缩小的窗口。

人物,做的是定方向、定标准、担后果的事情。他们的价值不在于亲手做了什么,而在于他们的判断和决策改变了事情的走向。一个技术总监决定采用微服务还是单体架构,一个出版人决定出版哪本书,一个基金经理决定重仓哪个行业——这些决策的质量决定了整个团队或组织的命运。

AI 可以给决策者提供大量的信息和建议。但有两件事它做不到:

第一,它不能替你做最终决定。在信息不完备、后果不可逆的真实情境中,必须有一个人说“就这么干了”。这个人需要承受不确定性的压力,需要在信息不足的情况下做出判断,需要为结果负责。这不是技术能力,这是一种心理品质和社会功能。

第二,它不能替你承担后果。当事情搞砸了,必须有一个可追责的主体出来面对。社会的运转依赖于这种可追责性——合同要有人签字,决策要有人背书,失误要有人担责。AI 可以辅助,但不能担责。

所以“人物”这一层,在可预见的未来,是 AI 最难触及的。

这并不意味着成为“人物”就可以高枕无忧。恰恰相反——AI 时代对“人物”的要求会比以前更高。因为 AI 降低了执行层的成本,决策层的杠杆效应就更大了:一个好的决策通过 AI 可以被更快、更广泛地执行,价值被放大;一个坏的决策同样会被更快、更广泛地执行,灾难也被放大。

那么,如何从“人员”或“人才”向“人物”升级?

我从熊辉的框架中提炼出三条路径:

路径一:让你的产出变成“作品”而非“作业”。 “作业”是交给别人就完事的,没人记得你做过哪些作业。“作品”是可以署名的、可以被他人引用和复用的、代表你水准的东西。同样是写代码,写一个内部 CRUD 接口是作业,写一个被广泛使用的开源工具是作品。同样是做分析,完成一份上级交代的数据报告是作业,写一篇被行业引用的深度研究是作品。作品是你能力的“可验证证明”,是你职业声誉的基石。

路径二:让你的决策有“证据链”。 不是凭感觉做决策,而是每一个关键决策都配对清晰的逻辑链——目标是什么、假设是什么、证据是什么、如何验证、如果错了怎么办。这种习惯做的不只是提高决策质量,更重要的是它让你的决策过程变得“可审计”——别人可以看到你的思维过程,理解你的逻辑,信任你的判断。在一个充斥着 AI 生成内容的世界里,“可追溯的人类判断”本身就是稀缺品。

路径三:学会“讲故事”。 这听起来很软,但在实践中极其重要。技术能力决定了你能看到什么,叙事能力决定了别人能不能看到你看到的东西。一个技术总监如果不能用清晰的叙事把架构决策的逻辑传达给CEO,他的判断力再强也无法影响组织的方向。一个创业者如果不能用引人入胜的故事让投资人理解他的愿景,他的洞察力再深也无法转化为资源。从“人才”到“人物”的跃迁,往往不是因为你变得更聪明了,而是因为你学会了让自己的判断力被更多人看见和信任。

那么,明天做什么?

讨论了这么多,让我试着把熊辉的框架收束为几条可以立刻执行的操作。

第一,把“约束条件分析”变成一种思考习惯。 每当你听到一个新的技术趋势或商业机会,问自己三个问题:它依赖什么稀缺资源?谁在控制这些资源?这些约束在可见的未来能被解除吗?这个习惯不只适用于 AI——它适用于你职业生涯中遇到的几乎所有重大判断。

第二,从今天开始练习“编排”而非“执行”。 找一个你手头的实际任务,尝试把它拆解成多个子任务,分配给 AI 工具并行执行。不需要很复杂——哪怕只是让一个 AI 写代码、另一个 AI 写测试,然后你来整合。重要的是亲身体验一下“一个人 + N 台机器”的工作方式是什么感觉。你会发现瓶颈不在 AI 的能力上,而在你拆解和验证的能力上。

第三,开始做“多模型交叉验证”。 你正在处理的某个问题,同时问两到三个不同的 AI 模型。认真对比它们的回答,记录差异和你的判断。把这个练习变成每天的习惯——就像品酒师每天做味觉训练一样。一两个月后,你对 AI 输出质量的判断力会有质的提升。

第四,找到你的“无人区”。 审视你的工作领域,问自己:哪些知识是高度本地化的、高度隐性化的、高度情境依赖的?哪些信息是你用脚走出来、用经验积累出来、但从来没有被系统化的?那就是你的无人区。每周花一两个小时,把这些知识开始沉淀——写下来、建模型、做框架。这些就是你在 AI 时代最宝贵的资产。

第五,把你的下一份产出变成一件“作品”。 不管你的本职工作是什么,找一件正在做的事情,把它从“完成任务”的标准提升到“值得署名”的标准。写一份能被同行引用的报告,做一个能被团队复用的工具,设计一套能被后人参照的流程。一件作品胜过一百份作业。

这五条操作看起来很朴素,没有一条需要“等 AI 再发展两年”才能开始。事实上,大多数真正有价值的职业动作都不需要等——需要等的,往往是你下定决心的那一刻。

尾声

我在最开始说,“AI 会不会取代我的工作”是一个被问错了的问题。那个正确的问题是:“在 AI 时代,衡量职业价值的尺子会变成什么样?”

熊辉的《太学》演讲,实质上就是在描述这把新尺子的刻度:

第一个刻度:你是否理解技术背后的约束? 看穿表象、直抵瓶颈的能力,在任何时代都稀缺。

第二个刻度:你能不能“杠杆化”你的认知? 从一个人做一件事,到一个人编排 N 件事——这是产能的量级跃升。

第三个刻度:你能不能提出好问题、做出好判断? 在答案泛滥的时代,好问题和好判断才是真正的稀缺资源。

第四个刻度:你是否占据了数据稀疏的高地? 在 AI 能力最弱的地方建立壁垒,然后用 AI 放大壁垒的价值。

第五个刻度:你是“人员”、“人才”还是“人物”? 执行可以被自动化,专业技能可以被侵蚀,但做决定并承担后果——这是人类社会运转的基石,AI 无法替代。

这五个刻度构成了一把新的尺子。用这把尺子量一量自己,你就知道你现在站在哪里、应该往哪里走。

最后说一句。

每一次技术变革都会引发恐慌。蒸汽机来的时候,人们害怕机器会让所有人失业。电力普及的时候,人们害怕工厂会吞噬城市。互联网兴起的时候,人们害怕信息洪流会淹没一切。但回头看,这些变革最终不是毁灭了人的价值,而是重新定义了什么是有价值的。

AI 时代也会如此。

旧的价值会贬值,新的价值会浮现。关键在于——你是在旧地图上寻找旧的宝藏,还是拿起新的尺子,去绘制一张属于自己的新地图。

1839 年,达盖尔发明了摄影术。当时的画家们恐慌了——“绘画已死”。但回头看,摄影术杀死的不是绘画本身,而是绘画中“忠实记录现实”的那个功能。绘画失去了一个旧的理由,但找到了更多新的理由——印象派、抽象派、表现主义,都是在摄影术之后才涌现的。画家不再需要比相机画得更“像”,反而可以去探索只有人类的感知和想象力才能触及的领域。

AI 之于知识工作,很可能就是摄影术之于绘画。它会杀死一些旧的价值,但也会释放出大量我们现在还看不清楚的新价值。

熊辉的那句话值得最后再说一遍:“AI 并不仅仅是技术洪流,更是一场‘资源—劳动—能力’价值链的重新洗牌。”

洗牌之后,新的牌局已经开始。而你手里的牌是什么,取决于你此刻的选择。

AI 时代的职业图谱(万维钢版)

发表于 2026/02/18 | 分类于 AI专题

“别只盯着模型多大、参数多少,真正决定 AI 未来的是资源约束、劳动形态和个人能力的重新定价。” — 熊辉

引子:一场不谈模型的 AI 演讲

如果你在过去两年参加过任何一场 AI 行业分享,你大概率听到的是这样一套叙事:先放一张模型参数量指数增长的曲线图,然后现场演示 AI 写诗、画画或者三分钟搭一个网站,最后留下一句“未来已来”。观众鼓掌离场,回到工位上继续焦虑。

2024年,百度前副总裁、罗格斯大学终身教授熊辉站在《太学》的讲台上,做了一场完全不同的演讲。

他没有展示最新的 benchmark,没有秀炫目的 Demo,甚至没有讨论哪家大模型又刷新了排行榜。他讨论的是一个更冷门、但可能更重要的问题:当 AI 改写了生产方式之后,普通人的职业价值锚点在哪里?

这个问题之所以值得认真对待,是因为绝大多数关于 AI 的公共讨论都在谈“AI 能做什么”——它能写代码、能画画、能通过律师资格考试——却很少有人系统地思考另外两个问题:“AI 的瓶颈在哪里?”以及“在一个 AI 无处不在的世界里,人的价值坐标系应该怎么重新校准?”

熊辉的演讲,本质上就是在回答这两个问题。他给出了一套由五个支点构成的分析框架:资源约束、新型劳动体、核心能力重估、数据稀疏地带、以及个人价值的重新分层。这套框架的独到之处在于——它不是从技术出发,而是从经济学和组织行为学出发来审视 AI 对职业的影响。换句话说,他不关心 AI 有多强,他关心的是这股力量撞上现实世界的物理定律和经济规律之后,会被塑造成什么形状。

这篇文章是对这场演讲的一次深度展开。我会沿着熊辉的五个核心论点逐一拆解,但不仅仅是复述——在每个论点上,我都会从不同的学科拉来证据做交叉验证,看看它到底能不能站住脚。

一、算力的尽头不是芯片,是电力

1.1 被忽略的物理层

在 AI 的公共叙事里,有一个奇怪的断层:人们津津乐道于 GPT 的参数量从 1750 亿涨到了万亿级别,但很少有人追问一个朴素的问题——训练和运行这些模型的电,从哪来?

熊辉在《太学》里首先提醒听众:当今最热的“大模型竞赛”并非纯粹的技术军备,而是一场受电力和基础资源约束的产业冲刺。这个判断听起来不够酷,但它指向的是一个比模型架构更底层、更硬核的现实。

让我们看几个数字。国际能源署(IEA)2024年的报告指出,全球数据中心的用电量已经超过了整个法国的全年用电量。而到2026年,仅 AI 相关的计算任务就可能让全球数据中心的电力消耗再翻一倍。英伟达的 H100 GPU 单卡功耗达到 700 瓦,一个装满 H100 的服务器机架功耗高达 40 千瓦——这相当于十几个普通家庭的用电量集中在一个不到两平方米的机柜里。再换一个更直观的尺度:你每向 ChatGPT 提一个问题,消耗的电力大约是一次谷歌搜索的十倍。当全球数十亿用户每天都在跟 AI 对话时,这个十倍会变成一个天文数字。

这不是一个可以靠“技术迭代”轻松解决的问题。芯片可以越做越小、越做越快,但热力学第二定律不讲情面:计算必然产生热量,散热必然消耗能量,能量必然来自某种物理过程。你可以优化软件算法,可以改进芯片架构,但你绕不开发电厂、输电网和冷却系统。

1.2 历史的回声:杰文斯悖论

熊辉的这个判断并不是独创——它实际上在重述一个有 160 年历史的经济学洞察。

1865年,英国经济学家威廉·斯坦利·杰文斯出版了《煤炭问题》一书。当时的主流观点认为,瓦特改良蒸汽机大幅提高了煤的使用效率,所以英国的煤炭消耗应该会下降。杰文斯却得出了一个反直觉的结论:效率的提升不会减少资源消耗,反而会因为使用成本降低、应用场景扩大而导致总消耗上升。

这就是著名的杰文斯悖论。它在此后的 160 年里反复被验证:电力越便宜,用电量越大;汽车油耗越低,人们开得越远;互联网带宽越高,数据流量越多。

AI 领域正在上演同样的戏码。大模型的推理效率确实在快速提升——同样的任务,今天需要的算力可能只有一年前的十分之一。但杰文斯会告诉你,这只会让更多的人、更多的场景开始使用 AI,最终推高而非降低总算力需求。当每个人的手机里都跑着一个个人助手,当每辆车都在做实时决策,当每家工厂的每条产线都由 AI 优化——届时的电力需求将是今天的数倍甚至数十倍。

1.3 谁在布局“发电厂”

理解了这个约束,你就能看懂一些看似反常的商业动作。

微软在2024年重启了三里岛核电站的部分机组,专门为其数据中心供电。亚马逊和谷歌在大力投资核聚变初创公司。OpenAI 的 CEO 萨姆·奥特曼个人投了超过 3.75 亿美元给核聚变公司 Helion Energy。这些科技巨头不是突然对环保产生了热情——他们是意识到,在 AI 时代,谁控制了稳定、廉价的电力供应,谁就拥有了最硬的护城河。

这就好比 19 世纪的铁路时代。大家都在讨论火车跑得有多快、能拉多少人,但真正赚大钱的不是造火车的,而是铺铁轨的、挖煤矿的、炼钢铁的。技术的光芒总是吸引最多的注意力,但底层基础设施才是决定格局的力量。

1.4 给职场人的启示

这个判断对普通人的职业选择意味着什么?

第一层含义是投资视角:如果你在考虑投资或创业方向,别只追最亮眼的模型热点。与 AI 供电、冷却、能源管理、电网调度相关的“环节型机会”,可能拥有比模型公司更持久的竞争优势。

第二层含义更深:它训练了一种看问题的方式。 每当你面临一个技术趋势,不要只看技术本身,要追问“它的物理约束是什么?”、“它依赖什么稀缺资源?”、“谁在控制这些资源?”把视角下沉一层,你的决策就不容易被表层噪音牵着走。

这种思维方式在经济学里有一个名字,叫“约束条件分析”。任何一个系统的产出,最终不是由它最强的部分决定的,而是由它最薄弱的环节决定的——这就是“木桶原理”在产业层面的应用。AI 最薄弱的环节不是算法,不是数据,而是电力和基础设施。看到这一点,你就比 90%讨论 AI 的人多了一个维度的认知。

二、新型劳动体:一个人加 N 台机器

2.1 从“包工制”到“代理人制”

英国工业革命之前,纺织业的主流生产方式叫“包工制”(putting-out system):商人把原材料分发给农村家庭,每家每户用手工纺车织布,再把成品交回商人。一个商人可能同时管理几十个家庭作坊,但每个作坊的产出完全取决于织工个人的手速和体力。

蒸汽机和珍妮纺纱机改变了这一切。工厂制度诞生了——工人不再在家单干,而是集中到工厂里,围绕机器协作。一个工人操作一台机器,产出是以前手工的几十倍。但请注意,真正改变的不是工人的能力,而是劳动的组织形式。

熊辉在演讲中提出的“人机协作新劳动体”概念,本质上是在描述第三次劳动组织形式的变革:不是人围着机器转,而是人指挥一群 AI 代理(Agent)组成的数字团队,同时推进多条工作流。

如果说工业革命把“一个人做一件事”变成了“一个人操作一台机器做一件事”,AI 时代正在把它变成“一个人编排 N 个代理做 N 件事”。

2.2 认知杠杆:比体力杠杆更强大

为什么这个变化如此重要?因为它创造了一种前所未有的“认知杠杆”。

我们都熟悉金融杠杆的概念:你用 1 万块钱的本金,借 9 万块钱的贷款,去投资一个 10 万块钱的项目。如果项目涨了 10%,你的收益不是 10%,而是 100%——这就是杠杆的力量。

AI 代理提供的是认知层面的杠杆。传统的知识工作者——程序员、律师、分析师——他们的产出受限于个人的认知带宽:一次只能想一个问题,一天只有那么多小时的高效思考时间。但如果你能把自己的判断力和决策能力“杠杆化”——通过明确的任务拆解和质量标准,让多个 AI 代理并行执行——你的产出就不再受限于你个人的认知带宽,而是受限于你“编排和验证”的能力。

这就像一个优秀的电影导演。导演不亲自演戏、不亲自打光、不亲自写配乐,但他协调几百人的团队,把自己的艺术判断力杠杆化到了极致。最终电影的质量取决于导演的视野和判断力,而不是他个人能否同时做所有事。诺兰不会比他的摄影师更擅长操作摄影机,但《奥本海默》之所以是诺兰的电影而不是任何其他人的电影,是因为每一个镜头都服务于他脑子里的那个叙事。

但杠杆是一把双刃剑。金融杠杆用好了叫“以小博大”,用砸了叫“爆仓”。认知杠杆也一样:如果你的判断是错的,多个 AI 代理会以高效率帮你把错误放大到每一个角落。这也是熊辉特别强调“证据链”的原因——没有验证机制的认知杠杆,等于在没有刹车的跑车上踩油门。

2.3 面试的新常态

熊辉做了一个很有画面感的预测:未来你去面试时,带去的不只是简历,而是一整支由多台代理组成的“数字团队”。

这话乍一听像科幻,但仔细想想,类似的事情已经在发生。在自由职业平台上,一个聪明的设计师已经不是单打独斗了——他用 Midjourney 做概念图,用 Figma AI 做布局,用 ChatGPT 写文案,用自动化工具批量交付。他一个人的产出抵得上以前一个小型设计工作室。甲方在意的不是他一个人能画多快,而是他能不能在规定时间内交付高质量的完整方案。

弗雷德里克·泰勒在 1911 年出版了《科学管理原则》,核心思想是把复杂工作分解成标准化的简单步骤,让每个工人只负责一步。这是“拆解工作、分配给人”。而现在发生的是一种逆向的泰勒主义——拆解工作、分配给 AI,而你是那个做拆解和质量把控的人。

2.4 三个可以量化的指标

熊辉给出了三个衡量“人机协作能力”的指标,我觉得非常实用:

并行度:同一时间你能高效管理多少条自动化工作流?这不是说你同时开十个聊天窗口就叫并行。真正的并行意味着每条工作流都有清晰的目标、明确的验收标准、以及你知道在什么节点需要介入。就像一个空中交通管制员,同时引导多架飞机着陆,不是因为他眼睛多,而是因为他有雷达系统和标准化的通信协议。

证据链:每条流程都能输出日志、测试结果和回滚方案吗?AI 的输出是概率性的,这意味着它有时会出错——而且出错的方式可能很隐蔽。如果你不能要求每条工作流都留下可追溯的证据,你就像一个不看仪表盘的飞行员:大部分时候没事,但出事就是大事。

迭代速度:从需求拆解到第一轮可验证结果,你把时间压到多短?在 AI 时代,“快速试错”不再是一种工作理念,而是一种硬性的竞争要求。你的迭代周期越短,你在同样的时间窗口内能探索的方向就越多,找到正确解的概率就越大。

这三个指标看起来像是技术管理的话术,但它们背后的逻辑适用于任何职业。一个市场营销人员同时用三个 AI 工具测试不同的文案方案,一个投资分析师让多个模型独立评估同一个标的——底层逻辑都是并行度、证据链和迭代速度。

三、核心能力重估:提问力与鉴赏力

3.1 苏格拉底的复仇

公元前 399 年,雅典法庭以“腐蚀青年”和“不敬神明”的罪名判处苏格拉底死刑。但苏格拉底留下了一种比任何具体知识都更持久的遗产——追问的方法。

苏格拉底的核心洞察是:真正的智慧不在于知道很多东西,而在于知道什么是自己不知道的,以及如何通过系统的追问来逼近真相。他发明的“诘问法”(Socratic method)本质上就是一种提问技术:通过反复追问前提、暴露矛盾、迫使对方(或自己)不断修正判断。

2400 年后,这种能力正在经历一次戏剧性的价值重估。

在大模型“博闻强识”的年代——它们读过的书比任何人一辈子能读的都多——“知道很多东西”已经不值钱了。你问 ChatGPT 任何领域的基础知识,它都能给你一个 80 分的回答。但它无法告诉你,哪些问题才是真正值得问的。 这正是熊辉反复强调“提问力”的原因:在信息过剩的时代,瓶颈不是答案的供给,而是好问题的生成。

3.2 “侍酒师”类比

让我用一个类比来说明“鉴赏力”为什么重要。

想象一个世界,所有人都能用 AI 酿造出品质不错的葡萄酒——成本低廉、产量巨大。在这个世界里,什么人最有价值?不是酿酒师(因为 AI 已经能做),而是侍酒师(sommelier)——那个能在 1000 瓶看似差不多的酒里,准确判断哪瓶最适合某道菜、某个场合、某种心情的人。

鉴赏力就是这种“侍酒师”能力。当 AI 能在几分钟内生成十篇文章、二十张设计稿、五十段代码时,生产不再稀缺,判断才稀缺。 谁能在一堆 AI 产出中快速识别出最好的那个?谁能说清楚“好”的标准是什么?谁能发现 AI 输出中那些隐蔽的错误?这个人就是价值最高的人。

查理·芒格说过一句话:“反过来想,总是反过来想。”如果我们反过来理解理查德·费曼的名言“What I cannot create, I do not understand”(我不能创造的东西,我就不理解),在 AI 时代它应该被改写为:“What I cannot evaluate, I do not understand”——我不能评判的东西,我就不理解。

3.3 交叉验证:一种实用的鉴赏力训练法

熊辉在演讲中分享了一个他自己的方法,我觉得非常聪明:让多个模型对同一主题“交叉答题”。

具体操作是这样的:你把同一个问题分别抛给 GPT、Claude、Gemini,然后对比三个模型的回答。如果三个模型的答案高度一致,说明这个领域的数据覆盖充分、模式清晰,AI 的回答大概率可靠。但如果三个模型给出了截然不同的答案,甚至互相矛盾——这就有意思了。

模型的“集体困惑”往往指向了人类知识的真正盲区。 这些盲区可能是因为该领域的训练数据不足,可能是因为问题本身具有内在的争议性,也可能是因为这是一个新兴的、尚未被系统化研究的领域。无论是哪种情况,这个“盲区”本身就是一个极有价值的信号——它告诉你,这里有值得深挖的矿脉。

这个方法巧妙地把鉴赏力的训练变成了一个可操作的日常习惯。你不需要成为某个领域的专家才能开始判断 AI 输出的优劣——你只需要学会让多个“专家”互相检验,然后从差异中读出信号。

丹尼尔·卡尼曼在《噪声》一书中讨论过一个相关的概念:独立判断的聚合。如果多个独立的判断者对同一个问题给出了相似的答案,这个答案的可信度就远高于任何单个判断者的结论。这正是多模型交叉验证的理论基础——每个大模型就像一个独立的“判断者”,它们的训练数据不同、架构不同、偏好不同,但如果它们趋向一致,就值得信赖。

3.4 三步练习法

基于熊辉的框架,我总结了一个每天可以做的练习:

第一步,每天写下三个“机器答不好的问题”。这比听起来要难。大多数人一开始写出来的都是“太笼统”的问题——比如“人生的意义是什么?”这不是好问题,因为它没有可评估的标准。好的“机器答不好的问题”应该是具体的、可验证的,但又处于 AI 知识的边界地带。比如:“我所在城市的某个老旧小区,未来五年的房价会怎么走?”——这个问题足够具体,但 AI 的训练数据几乎不会覆盖到如此细粒度的本地信息。

第二步,让两款模型同时作答,对比差异。不是为了找出“谁对谁错”,而是为了理解“它们在哪里产生了分歧、为什么会有分歧”。分歧本身就是信息。

第三步,记录你对答案优劣的判断依据,并迭代你的提示词。这一步最容易被跳过,但它恰恰是最重要的——因为只有当你把判断依据显性化、写下来,你才能逐渐建立起自己的“鉴赏力标准”。下一次遇到类似的问题,你就不再是凭感觉判断,而是有据可依。

四、去数据稀疏的无人区

4.1 AI 是水,数据是地形

如果要用一个自然现象来类比 AI 的渗透路径,我会选择“水”。

水总是从高处流向低处,沿着阻力最小的路径前进。AI 也一样——它最先、最深入、最彻底地渗透到那些数据最丰富、模式最清晰、评价标准最明确的领域。机器翻译、图像识别、棋类游戏、标准化代码生成——这些领域的共同特点是:训练数据海量,正确答案清楚,AI 可以通过大量练习达到甚至超过人类水平。

但水流不到高地。那些数据尚未被系统化收集、价值评价仍然混沌、正确答案因人因时而异的领域,就是 AI 流不到的“高地”——也是熊辉所说的“数据稀疏的无人区”。

4.2 蓝海与红海的另一种理解

W·钱·金和勒妮·莫博涅在 2005 年出版了《蓝海战略》,提出企业不应该在现有市场(红海)里跟对手血拼,而应该创造全新的市场空间(蓝海)。这个框架在 AI 时代获得了一层新的含义:

AI 能力最强的地方,就是最拥挤的红海。 当翻译、客服、基础编程、模板化写作都能被 AI 高质量完成时,还在这些领域跟 AI 竞争的人,就像在红海里跟鲨鱼抢鱼吃——理论上你也能抓到鱼,但效率和成本都没法比。

AI 能力最弱的地方,就是蓝海。 这些地方不是因为不重要而数据稀疏,而是因为太复杂、太本地化、太依赖人际信任和隐性知识,以至于还没有人(或者 AI)把它们系统化。

举几个例子来说明数据密集区和数据稀疏区的差异:

在翻译领域,商品短描述的翻译早已是 AI 的强项——海量的平行语料、模板化的句式、明确的质量标准。但文化类长文的翻译、带有地方文化隐喻的营销文案、需要理解品牌调性和受众心理的本地化——这些 AI 做得磕磕绊绊,因为训练数据里这类高质量样本极为稀少。

在编程领域,标准的增删改查(CRUD)和脚手架代码,AI 几乎可以一键生成。但跨系统架构迁移——比如把一个运行了十年的银行核心系统从单体架构迁移到微服务——这涉及到对业务规则的深度理解、对遗留代码的考古式发掘、以及对风险的精准评估。这些知识绝大部分存在于少数资深工程师的脑子里,从未被写成文档,更不可能出现在 AI 的训练数据中。

在咨询领域,通用的行业分析报告已经可以让 AI 在几分钟内生成一份 80 分的初稿。但深入某个细分市场的田野调查——走进工厂车间、坐在会议室里观察客户的决策过程、通过一手访谈挖掘出行业的真实痛点——这是 AI 无论如何做不到的,因为这些信息根本不在互联网上。

4.3 一个简单的判别法

怎么判断你所在的领域是“数据密集的红海”还是“数据稀疏的无人区”?熊辉给了一个非常简洁的判别法,我把它稍作改良,变成三个自问自答:

第一问:这个领域的训练数据是否已经足量且高质量? 如果你做的事情,在 Stack Overflow、GitHub、Wikipedia 或任何大型公开数据集上有海量的高质量样本,那你就是在红海里。

第二问:这个领域的“正确答案”是否明确? 如果你做的事情有清晰的对错标准(代码能不能跑通、翻译是否准确、图像是否匹配描述),AI 就能通过不断训练来逼近正确答案。但如果“好”的标准模糊、因人而异、依赖上下文——比如“这个产品设计是否优雅?”、“这个商业决策是否明智?”——那 AI 就缺乏明确的优化目标。

第三问:这个领域是否依赖大量的隐性知识和本地信息? 隐性知识(tacit knowledge)是迈克尔·波兰尼在 1958 年提出的概念——“我们知道的比我们能说出来的多”。一个经验丰富的医生“看一眼就知道这个病人不对劲”,一个资深销售“感觉这个客户快要签约了”——这些判断依赖的是大量无法文字化的经验和直觉,AI 的训练数据里几乎不可能有这些。

如果三个问题的答案分别是“否、否、是”,那恭喜你——你大概率处在一个数据稀疏的无人区,这里正是个人和小团队能跑赢 AI 巨头的窗口期。

4.4 Netflix 的启示

Netflix 的创业故事是“去无人区”策略的经典案例。

1997 年,里德·哈斯廷斯创办 Netflix 时,视频租赁市场已经有一个巨无霸——百视达(Blockbuster),在全球拥有 9000 多家门店。如果 Netflix 选择在同一个赛道上竞争——开更多的门店、拿更好的位置——它一定会输。

哈斯廷斯选择了一个当时看来非常边缘的市场:通过邮寄 DVD 来租赁电影。这个市场太小、太慢、太不方便,百视达根本看不上。但正是因为看不上,百视达从来没有认真收集过“邮寄租赁”的数据、从来没有优化过这个流程、从来没有理解过这群用户的需求。

Netflix 就在这个“数据稀疏的无人区”里积累了独一无二的用户数据和运营经验,然后当宽带技术成熟的时候,顺势转型为流媒体——而此时百视达已经来不及追赶了。

这个故事的教训不是“要颠覆巨头”,而是:在巨头不在意的地方建立你的数据壁垒和能力壁垒,等待时机把这些壁垒转化为更大的优势。

在 AI 时代,这个策略同样适用。去那些 AI 还做不好的地方,去那些训练数据还不够的地方,去那些需要“脚踏实地”才能收集信息的地方——在那里积累你的独特资产,然后用 AI 工具把这些资产的价值放大。

知道该去哪里是一回事,知道自己该成为什么样的人是另一回事。找到了无人区,你还需要一个方向盘——一个关于“个人价值层级”的清晰认知,才能决定你在无人区里做什么、做到什么程度。这就是熊辉框架的最后一块拼图。

五、从“人员”到“人物”:个人价值的重新分层

5.1 德鲁克早就说过

彼得·德鲁克在 1959 年就提出了“知识工作者”(knowledge worker)的概念,预言未来的经济将由脑力劳动而非体力劳动驱动。六十多年后,德鲁克的预言不仅实现了,而且正在进入第二阶段的演变。

第一阶段(1960-2020):知识工作者取代了体力工作者成为经济的主力。程序员、分析师、设计师、咨询顾问——这些人靠“知道什么”和“能做什么”获取报酬。

第二阶段(2020-):AI 开始取代知识工作者中的“执行层”。AI 也“知道”很多东西,也“能做”很多事情——而且更快、更便宜、不知疲倦。这就迫使知识工作者不得不向上攀爬,找到 AI 无法替代的价值层级。

熊辉借用他在人力资源研究中的分层模型,给出了一个非常清晰的三级框架:

5.2 三个层级

人员:执行重复、可流程化的任务。在编程领域,这是写 CRUD 的初级程序员;在翻译领域,这是做商品短描述翻译的译员;在咨询领域,这是整理数据、制作 PPT 的分析师。这一层是 AI 冲击最直接、最猛烈的。

人才:拥有专业技能,能高质量地解决复杂问题。高级程序员、资深翻译、首席分析师。这一层不会被 AI 一夜之间取代,但会面临持续的侵蚀——因为 AI 的能力边界在不断扩张。如果你仅仅停留在“高质量执行”的层面,你的优势会随着 AI 的进步而逐渐缩小。

人物:能整合资源、制定标准、承担风险与结果的人。他们的价值不在于“做”什么,而在于“决定做什么”以及“为结果负责”。技术总监决定架构方向,出版人决定出版什么书,基金经理决定投什么标的。AI 可以提供信息和建议,但做最终决定并承担后果——这是 AI 无法替代的,因为社会的运转需要可追责的主体。

纳瓦尔·拉维坎特在《纳瓦尔宝典》中有一个相似的表述:“不要在意一小时能赚多少钱,而要追求那些无法用时间来衡量的产出。”人员的价值按小时计费,人才的价值按项目计费,而人物的价值无法计费——因为他们创造的是标准、方向和不可替代的信任。

5.3 厨师与厨子

纳瓦尔还做过一个精妙的类比:厨师(chef)和厨子(cook)的区别。

厨子按照菜谱做菜。菜谱写什么,他就做什么。他的技能是精确执行——刀工好、火候准、摆盘美。但如果给他一堆没见过的食材,他不知道怎么办。

厨师不需要菜谱。他理解食材的底层逻辑——什么跟什么搭配、什么温度激发什么风味、什么口感满足什么心理需求。他可以面对全新的食材,从第一性原理出发,创造一道从未存在过的菜。

AI 是终极厨子——它能完美执行任何已知的“菜谱”(数据模式)。但它不是厨师——它不能面对一个全新的情境,从底层逻辑出发创造前所未有的解决方案。从人员到人物的升级,本质上就是从“厨子”变成“厨师”的过程。

5.4 三条升级路径

怎么从人员走向人物?熊辉给出了方向,我把它具体化为三条路径:

第一,把产出“作品化”。 不只是完成任务,而是把你的产出变成可以被他人直接复用的“作品”——一个开源工具、一套方法论文档、一个被广泛引用的分析报告。“作品”和“作业”的区别在于:作业交了就完了,作品会持续产生价值。每一件作品都是你能力的可验证证明,也是你在行业里的声誉资本。

第二,把决策“证据化”。 在 AI 能帮你快速生成方案的年代,“我觉得应该这样做”这种话越来越没有说服力。每一个关键决策都应该配对可验证的指标:我为什么选择方案 A 而非方案 B?评估标准是什么?预期结果是什么?如何验证?如何回滚?这种“证据化”的决策习惯不仅让你的判断更可靠,也让你在团队中建立起“这个人的判断是有据可依的”信任。

第三,把问题“故事化”。 技术问题有技术答案,但要推动一个组织采纳你的方案,你需要的不只是技术正确性——你需要让团队、客户、投资人都能理解你的思路,认同你的判断。最有效的方式就是把复杂的技术分析变成一个清晰的叙事:我们面对什么问题?我们尝试了什么?我们从失败中学到了什么?我们现在的方案为什么能行?

举个例子:同样是向管理层提议引入微服务架构,一种说法是“微服务能提高系统的可扩展性和容错性”——正确但无感。另一种说法是“上个月大促期间,订单系统的崩溃导致公司损失了 300 万;如果我们在六月份之前把订单模块拆成独立服务,下次大促时即使某个模块出了问题,其他模块照常运转,我们不会再丢这 300 万”——同样的技术判断,但包裹在了一个有痛感、有数字、有时间线的故事里。好的叙事能力让你的判断力被看见、被理解、被信任——这是从“人才”跃升到“人物”的关键一步。

六、行动清单:把框架落到明天的工作

理论再好,不能落地就是空谈。以下是四个“明天就能做”的具体操作:

操作一:使用多模型交叉答题。 对你正在处理的某个工作问题,同时让 GPT 和 Claude(或其他模型)各给出一份回答。花 15 分钟对比它们的差异,记录你的判断。坚持一周,你对 AI 输出质量的感知力就会有明显提升。

操作二:建立“证据链模板”。 从今天开始,你提交的每一个方案、每一个 PR、每一份报告,都附上四个要素:目标是什么→怎么测试→观测到了什么→如果失败怎么回滚。这不只是给别人看的——它会倒逼你自己把思考做得更严密。

操作三:每周一题“无人区探索”。 选一个你工作领域中数据稀疏的议题——可能是某个本地法规的特有流程,可能是某类客户的独特需求模式——做一次深度调研。不需要多长,一两个小时就够。关键是把调研结果沉淀下来,逐渐建立你的“独有资产库”。

操作四:跑一条全自动并行流水线。 用你手头的 AI 工具(Cursor、Codex、ChatGPT 都行),尝试让两条任务同时推进。比如一条在写代码,另一条在写测试;或者一条在做数据分析,另一条在生成可视化。不需要完美,重要的是亲身体验“一个人 + N 台机器”的产能扩张是什么感觉。

结语:四根坐标轴

回到文章开头的问题:当 AI 改写了生产方式之后,普通人的职业价值锚点在哪里?

熊辉的《太学》演讲给出了四根坐标轴:

第一根轴:看见资源约束。 穿透技术的光环,看到底层的物理和经济约束,你就能找到“硬价值”——那些不因模型更新而贬值的东西。

第二根轴:组织人机协作。 从“一个人做一件事”升级到“一个人编排 N 个代理做 N 件事”,你的产能才能突破人力极限。

第三根轴:锻造提问与鉴赏力。 在信息过剩的时代,生产能力不再稀缺,判断能力才稀缺。能提出好问题、能评判答案质量的人,将立于 AI 最难攻破的高地。

第四根轴:走进数据稀疏的无人区。 去 AI 还做不好的地方,积累你的独特资产,然后用 AI 工具把这些资产的价值放大。

带着这四根坐标轴,你就不必在每一次模型更新的浪潮里被动追随,也不必在“AI 要取代我了”的焦虑中消耗精力。你有了自己的参照系,可以主动绘制自己的职业图谱。

熊辉在演讲最后说的一句话,我觉得是最好的总结:“AI 并不仅仅是技术洪流,更是一场‘资源—劳动—能力’价值链的重新洗牌。”

洗牌意味着旧的座次被打乱,但也意味着——新的座次还没有被确定。

1850 年代的人不知道“电气工程师”会成为一个职业。1990 年代的人不知道“产品经理”和“全栈工程师”会成为最热门的岗位。同样,2026 年的我们也无法准确预测十年后的职业形态。但我们可以看清一件事:那些能穿透技术表象看见底层约束的人、能编排人机协作而非单打独斗的人、能提出好问题并做出好判断的人、敢走进数据稀疏无人区的人——无论未来的职业叫什么名字,他们都会在那里。

上一页1…101112…38下一页

378 日志
9 分类
RSS
© 2017 — 2026 李文业
由 Hexo 强力驱动
|
主题 — NexT.Muse
粤ICP备17160932号