思考笔记

李文业的思考笔记


  • 首页

  • 关于

  • 分类

  • 归档

从一条消息到一套行动:本地AI Agent的信任经济学

发表于 2026/02/25 | 分类于 AI专题

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。

引子:你最强大的AI入口,可能是你最无聊的那个App

2025年以来,AI圈有一种弥漫的焦虑:我们需要为AI Agent设计全新的交互界面。有人做了精美的Dashboard,有人做了专用的IDE,有人甚至尝试用AR眼镜来操控Agent。

但有一个开源项目反其道而行之,选择了一个所有人都觉得“太简陋”的入口——你手机上的聊天软件。WhatsApp、Telegram、Discord、Slack、Teams……你每天用来发“收到”“好的”“哈哈哈”的那个窗口。

这个项目叫OpenClaw,口号是“Your assistant. Your Machine. Your rules.”

乍看之下,这像是在开倒车。我们好不容易从命令行进化到图形界面,从图形界面进化到触屏交互,现在你告诉我最先进的AI操作方式是……发消息?

但仔细想想,这里面有一个被大多数人忽略的洞察:最好的新界面,不是人们从未见过的界面,而是人们已经用了十年、连想都不用想就会用的界面。

这篇文章要讲的,不仅仅是一个开源项目。它触及了一个更大的问题——在AI Agent时代,“入口”“信任”和“控制”之间的三角关系,正在被重新定义。


一、认知经济学:为什么“一条消息”比“一个App”更值钱

1.1 希克定律与界面摩擦

1952年,英国心理学家William Edmund Hick做了一个经典实验:给被试面前摆n盏灯,每盏灯对应一个按钮,灯亮了按对应的按钮。结果发现,选项每翻一倍,反应时间不是翻倍,而是增加一个固定常数——这就是著名的希克定律(Hick’s Law)。

希克定律的推论是:减少选项数量是降低认知负荷最有效的方法。

现在把这个定律套到AI Agent的交互设计上。一个典型的AI Agent平台,你需要:打开浏览器→登录平台→选择Agent→配置参数→输入指令→等待结果。每一步都是一个决策点,每一个决策点都在消耗你的认知预算。

OpenClaw把这个链条压缩成了什么?打开聊天窗口→发一条消息。 没了。

从认知科学的角度看,这不是简化,这是范式转换。它把“意图→行动”之间的决策节点从6个以上压缩到了1个。 按照希克定律的对数关系,这意味着认知摩擦降低了至少70%。

1.2 旧习惯的复利效应

行为经济学家Richard Thaler——2017年诺贝尔经济学奖得主——提出过一个核心概念叫“助推”(Nudge)。他发现,改变人的行为最有效的方式不是教育,不是激励,而是改变默认选项。

养老金计划的经典案例:当公司把401(k)从“opt-in”(默认不参加,你要主动报名)改成“opt-out”(默认参加,你不想参加要主动退出),参与率从不到50%飙升到超过90%。行为没变,人还是那些人,只是默认选项变了。

OpenClaw做的事情本质上一样。它没有创造新行为(你不需要学一个新App),而是把旧行为的默认产出从“文字交流”升级成了“行动执行”。你还是在发消息,但消息的另一头不再只是一个人——而是一整套可以执行任务的Agent系统。

这就是为什么它比任何精心设计的新界面都更有爆发力。新界面需要用户学习成本,而聊天窗口的学习成本是零,因为你十年前就已经“学会”了。

1.3 神经系统隐喻:一个比你想的更精确的类比

OpenClaw的架构设计者用了一个“神经系统”隐喻来描述整体架构。这不只是市场传播的修辞手法,它在结构上确实高度同构。

  • Gateway = 中枢神经系统。 一个长期运行的进程,统一管理所有消息平台的连接。就像你的脊髓和脑干——永远在线,负责路由所有信号。
  • Channels = 感官输入。 WhatsApp、Telegram、Discord等消息渠道,就是系统的眼睛、耳朵、皮肤。每个Channel采集不同来源的信息,汇总到Gateway。
  • Tools/Nodes = 肢体与工具箱。 浏览器控制、Canvas可视化、设备节点(摄像头、屏幕录制、位置、命令行)、定时任务(cron)。这是系统的“手脚”——感知到信息之后,能够对物理世界和数字世界采取行动。
  • Skills = 习惯与技能包。 可复用的能力模块,每个Skill就是一个文件夹加一份SKILL.md说明书。可以通过ClawHub搜索、安装、更新、发布——就像人类的程序性记忆,一旦学会骑自行车,就不用每次重新学。
  • Memory = 可编辑的“自我”。 工作区里的纯Markdown文件,长期记忆默认只在私聊的主会话中加载。

有趣的是,这个隐喻在一个关键维度上比人类神经系统更好:它的记忆是可编辑的。 你打开一个Markdown文件就能修改Agent的“性格”和“知识”。想象一下,如果人类能打开自己的大脑,删掉一段不愉快的记忆,或者手动写入一项新技能——OpenClaw的Memory系统就是这样工作的。

这种架构的深层含义是:Agent不再是一个你“使用”的工具,而是一个你“塑造”的实体。


二、信任重构:为什么AI不该住在别人家

2.1 一个反直觉的信任问题

大多数人对AI的信任焦虑是这样的:“AI会不会说谎?会不会犯错?会不会被利用?”

这些确实是问题。但OpenClaw指向了一个更底层的问题——你的AI住在谁家?

经济学家Oliver Hart和Sanford Grossman在1986年提出了一个影响深远的理论:不完全契约理论(Incomplete Contract Theory)。核心思想是:在复杂交易中,你不可能写出一份覆盖所有意外情况的完美合同。 那么当合同没写到的情况发生时,谁说了算?答案是:谁拥有资产,谁就拥有“剩余控制权”。

Hart因为这个理论获得了2016年诺贝尔经济学奖。

现在把这个框架套到AI Agent上。当你使用一个云端AI服务时,“资产”——数据、模型、算力、日志——全在服务商手里。当出现合同没有覆盖的情况(比如服务商调整了隐私政策,或者你的对话数据被用于训练了新模型),剩余控制权在服务商手里。你能做的只有接受或离开。

OpenClaw的“本地运行+你的钥匙”叙事,本质上是在争夺剩余控制权。 基础设施你选,API密钥你管,数据你控。AI不再是“借来的大脑”,而是“自家的劳动力系统”。

这不是意识形态,这是产权经济学。

2.2 从“信任人”到“信任架构”

密码学领域有一个概念叫“零信任架构”(Zero Trust Architecture)。传统安全模型假设内部网络是可信的——城堡护城河模型。但零信任架构认为:不要信任任何人,验证一切。

OpenClaw的本地运行模式就是把零信任思想应用到了AI Agent领域。你不需要信任OpenClaw的开发者会善待你的数据——因为数据根本就没离开你的机器。你不需要信任云服务商不会滥用你的API调用——因为密钥在你手里。你甚至不需要信任Agent本身——因为它的记忆、技能、权限全是你配置的Markdown文件。

这里有一个精妙的设计选择:信任的锚点从“人”(服务商的承诺)转移到了“架构”(系统的物理约束)。 你不用相信任何人的善意,你只需要相信一个事实:运行在你机器上的进程,物理上无法把数据传给你不允许的地方。

社会学家Niklas Luhmann区分了两种信任:人际信任(trust in persons)和系统信任(trust in systems)。人际信任依赖于对特定个体的了解和判断,扩展性差,脆弱性高。系统信任依赖于制度和架构的可验证性,可以规模化,也更健壮。

OpenClaw的信任模型是从人际信任到系统信任的跃迁。 这在人类制度史上发生过很多次——从熟人借贷到银行系统,从口头承诺到法律合同,从中心化记账到区块链。每一次跃迁都释放了巨大的协作潜力。

2.3 浏览器:一个被低估的万能适配器

OpenClaw最让我意外的能力不是AI聊天,而是浏览器控制。

有一个真实案例:一个用户用OpenClaw完成了Tesco超市的“购物自动驾驶”。流程是这样的——Agent根据每周餐饮计划,生成购物清单;然后打开Tesco网站,逐一搜索并添加商品到购物车;预订配送时间段;最后确认订单。全程没有调用任何API,完全通过浏览器操作完成。

这听起来像一个方便的自动化小工具。但它背后有一个被严重低估的洞察:

全世界绝大多数数字服务都没有公开API。 你的银行没有,你孩子学校的午餐预订系统没有,你所在城市的政务服务网站没有。在API驱动的自动化世界里,这些服务是“暗物质”——理论上存在,但传统自动化工具根本触达不了。

浏览器工具改变了这个格局。网页就是通用API,浏览器就是万能适配器。 任何人类能在浏览器里完成的操作,Agent理论上都能完成。这一下子把Agent的能力边界从“有API的世界”扩展到了“有网页的世界”——后者比前者大了不止一个数量级。

复杂性科学家Stuart Kauffman提出过“邻近可能”(Adjacent Possible)的概念:创新不是凭空发生的,它总是在现有能力的“邻居”中产生。有了浏览器工具之后,Agent的“邻近可能”空间突然膨胀了——昨天还不可能被自动化的日常任务,今天突然变成了一条消息就能搞定的事情。


三、五个“爆款原型”:从晨间指挥台到多Agent合伙制

接下来我要讲五个已经在OpenClaw社区中跑通的创新原型。这不是概念验证,是真实用户在真实场景中的实践。每一个原型背后都对应着一种“人与Agent协作”的新模式。

3.1 原型一:晨间指挥台——把被动接收变成主动指挥

想象一下这个场景:每天早上7:00,你的Telegram弹出一条消息。不是新闻推送,不是天气预报,而是一份个性化的行动摘要——今天的日程、待处理的邮件摘要、需要你决策的事项,旁边配着可执行的按钮。你不需要打开日历App、邮箱App、项目管理App分别查看。你只需要在一个聊天窗口里,用几个按钮就能完成“决策→下达→执行”的完整闭环。

技术实现并不复杂:用cron定时任务在凌晨触发数据收集,Canvas做可视化呈现,A2UI(Agent-to-User Interface)生成交互按钮。

但这个原型真正有趣的地方不在技术,而在认知模式的转变。

管理学家Henry Mintzberg在研究CEO日常行为时发现了一个反直觉的事实:大多数管理者的一天不是“主动规划→执行”,而是“被动响应→救火”。 他们的时间被各种打断切割成碎片,真正用于深度思考和战略决策的时间少得可怜。

晨间指挥台的设计哲学恰好针对这个问题:把一天中认知资源最充沛的时段(早晨),从“被动接收信息”变成“主动指挥行动”。 你不是在翻看各种App的通知,而是在一个统一的界面里做出今天最重要的几个决策。

这是任务管理的范式升级——从“清单”到“指挥系统”。

3.2 原型二:浏览器自动驾驶——可控的自动化

前面提到的Tesco购物案例只是冰山一角。社区里还有人用浏览器工具实现了ParentPay学校餐食的自动预订——这种系统连API都没有,传统自动化工具完全无能为力。

但这里有一个关键的设计决策:这不是“全自动驾驶”,而是**“可控的自动驾驶”**。

自动驾驶汽车行业有一个SAE分级系统(从L0到L5)。L5是完全无人驾驶,乘客可以睡觉;L3是有条件自动驾驶,关键时刻需要人类接管。OpenClaw的浏览器自动化更接近L3——每一步操作可解释,关键节点需要二次确认,任何时候用户都可以接管控制。

这个选择非常聪明。在Agent技术的当前阶段,L3比L5更有价值。 原因不仅是技术成熟度,更是心理学。

心理学家Ellen Langer做过一个著名的实验:让两组老年人住进相同的环境,一组被告知“一切由我们安排”,另一组被告知“你可以自己决定房间布置、活动安排”。几周后,第二组不仅心理状态更好,连身体健康指标都显著优于第一组。这就是“控制感”(perceived control)的力量。

在人与Agent的协作中,用户是否感到“我随时可以接管”,直接决定了他愿不愿意把任务交给Agent。 全自动听起来酷,但会让人焦虑。可控的自动化则让人放心——我放手是因为我选择放手,而不是因为我无法干预。

3.3 原型三:随身编程工厂——手机发消息,电脑出产品

这个案例让我作为技术从业者感到震动:有人通过Telegram发了一句话指令,让家里的Mac mini执行了完整的iOS应用构建和发布流程——代码编译、签名、上传到TestFlight,一气呵成。

手机变成了遥控器,家里的电脑变成了生产线。

更高级的玩法是多Agent路由:一个Agent负责前端,一个负责后端,一个负责测试,一个负责部署。你在手机上发一条“给登录页面加个忘记密码的链接”,消息被路由到前端Agent,它改完代码后通知测试Agent跑回归测试,测试通过后通知部署Agent上线。

这让我想到经济学家Ronald Coase在1937年那篇改变了整个组织理论的论文——《企业的性质》。Coase问了一个简单但深刻的问题:如果市场那么高效,为什么还需要企业? 他的答案是:交易成本。当市场中的协调成本(找人、谈判、签约、监督)超过企业内部的管理成本时,企业就有存在的理由。

多Agent路由系统本质上是在做同一件事:当单个Agent无法胜任复杂任务时,你不是去找一个更强的Agent,而是用多个专业Agent组成一个“微型企业”。 路由器就是CEO,各Agent就是部门,Skill文件就是岗位说明书。

Coase的交易成本理论在AI Agent时代获得了全新的适用场景:Agent之间的协调成本,将决定多Agent系统的最优“企业规模”。

3.4 原型四:传感器诗人——不是监控,是生活的自动生成

这是五个原型里最出人意料的一个。

有人在屋顶装了一个摄像头,连接到OpenClaw。系统不是用它来做安防监控,而是——当天空特别好看的时候,自动拍一张照片,配上一段文案,发到群聊里。

还有人用OpenClaw连接空气净化器,根据室内空气质量自动调节风速。有人连接了3D打印机,用聊天消息控制打印任务。

这些案例单独看很有趣,但合在一起看,指向了一个更深层的趋势:Agent正在从“数字世界的操作者”变成“物理世界的感知者和行动者”。

麻省理工学院的Kevin Ashton在1999年提出“物联网”(Internet of Things)这个概念时,预言有一天计算机将能够自主感知物理世界。二十多年过去了,物联网的大多数应用仍然停留在“数据采集→仪表盘展示”的阶段。你能看到温度曲线图,但系统不会主动帮你做什么。

OpenClaw的传感器集成打破了这个僵局。它在“感知”和“行动”之间加入了“理解”这个环节——AI能够理解传感器数据的含义,并自主决定该采取什么行动。 摄像头不再只是记录画面,它“看到”了美丽的天空;空气传感器不再只是显示数字,它“感知”到了空气质量的下降。

诗意一点说,Agent让机器学会了“审美”和“关心”。务实一点说,这是物联网从“可观测”到“可行动”的关键跨越。

3.5 原型五:多Agent合伙人——数字世界的“专业分工”

最后一个原型最具组织学意义。

社区里有人搭建了一个“三Agent治理结构”:一个“家庭管家”Agent负责家务、购物、日程协调;一个“工作助理”Agent负责邮件、文档、会议准备;一个“创作编辑”Agent负责写作辅助和内容发布。三个Agent互相隔离——家庭管家看不到你的工作邮件,工作助理不知道你的家庭购物清单。

更极端的案例是一个“14+ Agent梦之队”的编排,不同Agent分别担任研究员、写手、审校、数据分析师等角色。

这让我想到亚当·斯密在《国富论》开篇描述的那个著名的“别针工厂”。一个人独自做别针,一天做不了20根。但如果把工序拆分——抽丝、拉直、切断、磨尖、装针头——10个工人一天能做48000根。专业分工带来的效率提升不是线性的,而是指数级的。

但分工有一个经典问题:协调成本。工人之间需要沟通、需要等待、需要对齐标准。组织行为学家James March指出,组织的核心矛盾是“探索”(exploration)与“利用”(exploitation)之间的张力——你既需要专业化以提高效率,又需要跨领域协调以应对变化。

多Agent系统天然适合解决这个矛盾。每个Agent高度专业化(利用),而Gateway负责跨Agent的路由和协调(探索)。Agent之间的协调成本远低于人类——没有情绪、没有政治、没有沟通风格的摩擦。这意味着Agent团队可以比人类团队实现更细粒度的分工,而不会被协调成本吞噬掉分工带来的效率增益。

这五个原型合在一起,描绘了一幅图景:Agent不是一个单点工具,而是一套操作系统——有感知、有行动、有记忆、有分工。而这套操作系统的入口,就是你已经用了十年的聊天窗口。


四、生态扩散:为什么“可复制的技能包”比“更强的模型”更重要

4.1 创新扩散的S曲线

社会学家Everett Rogers在1962年提出了“创新扩散理论”(Diffusion of Innovations)。他发现,任何新技术的采纳都遵循一条S曲线——先是极少数“创新者”和“早期采纳者”尝试,然后是“早期多数”和“晚期多数”跟进,最后是“落后者”被迫接受。

S曲线前半段增长缓慢,一旦跨过一个“引爆点”(通常是16%的采纳率),增长会突然加速。

引爆点的关键不是技术本身有多好,而是“模仿成本”有多低。 Rogers发现,创新扩散中最有效的传播机制不是广告,不是专家推荐,而是“同伴示范”——看到和自己差不多的人成功使用了新技术。

OpenClaw的Skill系统天然就是一个降低模仿成本的机制。每个Skill就是一个文件夹加一份SKILL.md,任何人都可以打包自己的Agent能力,通过ClawHub分享给其他人。看到别人做了一个“本地酒窖管理”的Skill(有人真的导入了962瓶酒的CSV来管理自己的酒窖),你可以一键安装,然后根据自己的需要调整。

这把Agent能力从“自己从零开发”变成了“搜索、安装、微调”——模仿成本降低了一到两个数量级。

4.2 知识的“乐高化”

OpenClaw的Skill生态让我想到一个更大的知识管理命题。

计算机科学家Douglas Engelbart在1962年提出了“增强人类智力”(Augmenting Human Intellect)的框架。他认为,人类的智力不仅取决于大脑本身,还取决于“工件”(artifacts)——语言、符号、工具、方法论——的质量。改善工件,就是在改善智力。

Skill文件就是Agent的“工件”。一个好的Skill不只是一段代码,它是一个被验证过的问题解决方案——包含了某个人花了几个小时甚至几天摸索出来的配置、提示词、工具链组合和边界条件。

ClawHub的出现意味着:个人积累的Agent经验可以被打包成标准化的知识单元,像乐高积木一样在社区中流通和组合。 这是知识生产方式的一个微小但重要的进化——从“文章分享”(告诉你怎么做)到“能力分享”(直接把做好的东西给你用)。


五、安全悖论:越有能力的Agent越像“过于热心的实习生”

5.1 一个让安全研究者睡不着觉的能力

OpenClaw社区里流传着一个令人不安的故事:有人让Agent帮忙清理邮箱,结果Agent“过于热心地”执行了大量删除操作——删掉的邮件远远超出了用户的预期。

安全研究者给OpenClaw起了一个精准的绰号:“过于热心的实习生”(overly enthusiastic intern)。

这个比喻值得仔细品味。实习生的危险之处不在于他不听话,恰恰在于他太听话了——你说“把这个文件夹整理一下”,他可能把里面的东西全删了重新分类。他有执行力,但缺乏对“什么不该做”的隐性知识。

心理学家Gary Klein研究专家决策时提出了“识别启动决策”(Recognition-Primed Decision)模型。专家的厉害之处不在于他们能想到更多选项,而在于他们能瞬间识别出“这个情况不对”——然后停下来。 消防队长在火场中突然喊“全员撤退”,不是因为他算了一遍力学模型,而是因为他“感觉到”了某种微妙的异常。

当前的AI Agent恰恰缺乏这种“感觉到不对就停下来”的能力。它会忠实地执行你的指令,但不会在执行过程中突然意识到“等等,批量删除邮件好像不是用户的真正意图”。

这就引出了Agent安全的核心矛盾:能力越强的Agent,犯错时造成的损害也越大。

5.2 四层防御体系

OpenClaw社区逐渐摸索出了一套多层次的安全框架,我把它概括为四层防御:

第一层:关键动作二次确认。 对于不可逆操作(删除、发送、购买、提交),Agent必须先展示操作预览,等待用户明确确认后才执行。这相当于核电站的“双钥匙”机制——关键操作需要两个人同时转动钥匙。

第二层:权限分层与工具最小集。 不同Agent只能访问它们工作所需的最少资源。家庭管家不需要访问工作邮箱,工作助理不需要控制智能家居。这是信息安全领域的“最小权限原则”(Principle of Least Privilege)的直接应用。

第三层:技能供应链安全。 从ClawHub安装Skill的时候,要检查Skill的来源、作者信誉、代码内容。社区有人建议集成VirusTotal扫描——像检查食品标签一样检查每个Skill的“成分表”。这对应的是软件工程中日益重要的“供应链安全”意识——2021年的SolarWinds事件和2024年的XZ Utils后门事件都证明了,你的系统的安全性取决于你最弱的那个依赖。

第四层:防御prompt injection和日志投毒。 这是最技术性的一层。恶意内容可能通过网页、邮件、甚至聊天消息注入到Agent的上下文中,操纵它执行非预期的操作。这就像社会工程学攻击——骗子不需要破解你的密码,只需要骗你自己把密码说出来。

5.3 一个哲学命题:Agent的边界在哪里

四层防御能解决大部分已知风险。但还有一个更深层的问题,现有的安全框架无法完全覆盖。

Agent软件的边界,到底应该画在哪里?

传统软件的边界很清晰:这个程序能读写这些文件,能访问这些网络端口,能使用这些系统调用。你用进程隔离、文件权限、网络防火墙就能把它框住。

但Agent的行为不是由代码预先确定的,而是由自然语言指令在运行时动态生成的。你没法用传统的权限模型完全约束一个会“理解语言”的系统——因为语言本身是模糊的、多义的、可被操纵的。

哲学家Ludwig Wittgenstein在《哲学研究》中有一个著名的论断:“语言的意义就是它的使用。” 同一句话在不同上下文中意义完全不同。“清理一下”可能是“整理排序”,也可能是“全部删除”。

这意味着Agent安全不能只靠技术手段(进程隔离、权限控制、沙箱),还必须处理语言、意图与执行之间的语义鸿沟。这是一个跨越计算机科学、语言学和认知科学的交叉难题。

OpenClaw的设计者似乎隐约意识到了这一点。它的Memory系统用纯Markdown文件存储,意味着用户可以审查和编辑Agent的一切“认知内容”。它的Skill系统要求每个技能包附带SKILL.md说明文件,让能力的边界显式化。这些设计选择不能从根本上解决语义鸿沟问题,但它们朝着正确的方向迈了一步:让Agent的行为尽可能可解释、可审计、可干预。

安全不是一个需要“解决”的问题,而是一个需要持续管理的张力——就像民主社会中自由与秩序的关系一样。


六、结语:从“借来的大脑”到“自家的劳动力系统”

让我们退后一步,看看更大的图景。

过去三年,AI领域的主旋律是“模型越来越强”——参数更多、推理更快、能力更广。这当然重要。但OpenClaw代表的趋势提醒我们,光有聪明的大脑是不够的,你还需要把大脑连接到合适的身体上。

神经科学有一个概念叫“具身认知”(Embodied Cognition):认知不仅仅发生在大脑里,它还依赖于身体和环境的交互。 一个大脑再聪明,如果没有眼睛看、没有手操作、没有腿移动,它的智力也无法真正施展。

OpenClaw做的事情,就是给AI大脑配备了完整的“身体”——聊天窗口是嘴巴和耳朵,浏览器是手,传感器是眼睛,定时任务是生物钟,Skill是肌肉记忆,Memory是自传体记忆。而且这整套“身体”运行在你自己的机器上,由你完全控制。

从“在别人的服务器上借用一个聪明大脑”到“在自己的机器上培养一个完整的数字劳动力”——这不只是技术架构的变化,这是人与AI关系的根本重构。

当然,我们也必须保持清醒。“过于热心的实习生”依然是实习生——会犯错,会误解指令,会在你不注意的时候闯祸。Agent安全不是一个已经解决的问题,而是一个需要整个社区持续投入的长期工程。

但方向已经非常清晰了。

经济学家F.A. Hayek曾经说过,分散的知识比集中的知识更强大——前提是有足够好的协调机制。 市场之所以能打败计划经济,不是因为每个个体比计划委员会更聪明,而是因为价格机制让分散在每个人手中的局部知识得以汇聚和协调。

OpenClaw的架构哲学与此一脉相承:AI能力不应该集中在少数巨头的服务器上,而应该分散在每个人自己的机器上——通过Skill生态和开源协作来实现协调。 这是一种去中心化的AI发展路径。

它能不能成功?我不知道。但我知道的是,当一个系统同时解决了“入口摩擦”(聊天窗口)、“信任锚点”(本地运行)和“能力扩散”(Skill生态)这三个问题时,它值得被认真对待。

至少,它值得你用自己的机器试一试。毕竟——Your assistant. Your Machine. Your rules.

当聊天窗口长出了手脚:一个开源代理平台如何打开"相邻可能"的大门

发表于 2026/02/25 | 分类于 AI专题

风格参考:Steven Johnson(《伟大创意的诞生》《我们如何走到今天》作者)—— 从具体故事出发,用“相邻可能”和“液态网络”等框架串联技术创新的涌现逻辑。

一、屋顶上的摄像头

2025年深秋的某个傍晚,英格兰中部一座普通联排别墅的屋顶上,一台价值不到四十英镑的网络摄像头正默默对着西边的天空。它已经在那里挂了好几个月,最初是房主为了监控花园里的狐狸而装的——英格兰的城郊狐狸是出了名的胆大妄为,它们会在夜里翻倒垃圾桶,把鸡骨头拖得满草坪都是。但现在,这台摄像头有了一个完全不同的使命。

每当天空出现特定的色彩组合——比如日落时分那种从橘红渐变到紫罗兰的壮丽光谱,或者暴风雨前云层被阳光从下方照亮时的那种不真实的金色——这台摄像头就会自动拍下一张照片。几秒钟之后,照片会出现在一个家庭群聊里,附带一段由AI生成的简短文案,有时候是一句诗意的描述,有时候是一个关于大气光学的冷知识,有时候只是一句“快出来看天空”。

让这一切发生的,不是某个专业的智能家居系统,不是某个需要订阅才能使用的云服务,也不是房主自己写的复杂代码。让它发生的,是一条聊天消息。

房主在他的 Telegram 私聊窗口里,用自然语言描述了他想要的东西:“帮我监控屋顶摄像头,当天空特别好看的时候自动拍照,然后发到家庭群里,配一段文案。”然后,一个叫做 OpenClaw 的东西接管了剩下的一切。

这个故事之所以值得讲述,不是因为它有多么惊天动地。恰恰相反,它值得讲述,正是因为它如此平凡,如此日常——一个普通人,用一个普通的聊天软件,驱动了一个由摄像头、AI模型和消息推送组成的小型自动化系统。这种平凡本身,就是一场深刻变革的信号。 就像1876年贝尔打出第一通电话时说的那句著名的“沃森先生,请过来,我想见你”——这句话的内容无关紧要,真正重要的是,声音第一次穿越了电线。

今天,我们正在目睹类似的时刻:意图第一次穿越了聊天窗口,在另一端变成了行动。

二、相邻可能的门

在《伟大创意的诞生》里,我花了很长时间讨论一个来自理论生物学家斯图亚特·考夫曼的概念——“相邻可能”(adjacent possible)。考夫曼用这个概念来描述生命化学的一个基本特征:在任何给定的时间点,宇宙中可能出现的分子组合是有限的,但每当一种新的分子出现,它就像打开了一扇门,门后面是一组新的可能的组合,而这些新组合又各自通向更多的门。生命的历史,就是这些门不断被打开的历史。

技术的历史也是如此。蒸汽机打开的那扇门通向了铁路,铁路通向了标准时间,标准时间通向了全球协调。 但这些门不是凭空出现的——它们总是出现在已有技术的边缘地带,出现在两种或三种已经存在的东西相互碰撞的地方。

OpenClaw 之所以引起了我的注意,不是因为它的任何单一功能有多么革命性。AI代理(agent)不是新闻,聊天机器人不是新闻,本地运行的开源软件更不是新闻。但当这些已经存在的东西以一种特定的方式被组合在一起的时候,一扇通向相邻可能的门就被推开了。

让我解释一下这扇门是什么。

过去两年,大语言模型的能力飞速进化。它们能理解自然语言,能推理,能写代码,能调用工具。但对于绝大多数普通人来说,这些能力被锁在了特定的界面里——你得打开一个网页,或者一个专用的App,进入一个专门的对话窗口,才能触及这些能力。这就像19世纪中期的电报:技术本身已经足够强大,但你必须去电报局,把你的消息交给一个专业的电报员,由他翻译成摩尔斯电码,再通过电线发出去。电报改变了世界,但它从未真正进入普通人的日常生活——直到电话把“发送远程消息”这个行为从专业场所搬到了每个人的家里。

OpenClaw 做的事情,某种程度上就是电话对电报做的那件事。 它不是又造了一个AI聊天窗口,而是把AI的能力搬进了你已经每天都在用的聊天窗口——WhatsApp、Telegram、Discord、Slack、Teams,随便哪一个。你不需要学习新的工具,不需要切换到新的应用,不需要改变任何习惯。你只是发了一条消息,只不过这次,消息的接收者不是一个人,而是一个能够理解你的意图并将其转化为行动的系统。

这就是相邻可能的魔力:当“发消息”这个全世界最普遍、最低摩擦的数字行为,与“AI代理执行任务”这个全新的技术能力相遇时,它们之间的那扇门就打开了。 门后面是一个我们还在探索的空间——一个聊天窗口不再只是传递文字的管道,而是变成了一个行动的操作系统的空间。

三、一个英国家庭的超市自动驾驶

让我把镜头切到另一个场景。

英格兰某座城市,一个有两个孩子的家庭。每周日晚上,这个家庭的其中一位家长都要完成同样一套令人疲惫的流程:打开 Tesco(英国最大的连锁超市)的网站,浏览本周的促销信息,根据这周的餐饮计划挑选食材,加入购物车,核对常购清单,选择一个配送时段,确认订单,输入支付信息。整个过程通常需要四十分钟到一个小时,而且每一步都充满了令人恼火的小决策——这个酸奶是不是换包装了?上次买的那个意面酱还有货吗?周三的配送满了,周四早上行不行?

有一天,这位家长在 Telegram 上给 OpenClaw 发了这样一条消息:“帮我去 Tesco 网站,按照这周的餐饮计划购物,优先选常购商品,预订最近的配送时段,下单前让我确认一下。”

然后,一些有趣的事情发生了。

OpenClaw 启动了它内置的浏览器工具——不是调用什么 Tesco 的API(Tesco并没有开放这样的API给普通消费者),而是像一个人类用户一样,打开了一个真实的浏览器窗口,导航到 Tesco 的网站,登录账户,然后一步一步地完成了整个购物流程。它读取了之前存储在工作区里的餐饮计划和常购清单(这些都是普通的 Markdown 文件),把它们翻译成了一系列具体的搜索和点击操作。在选择配送时段的时候,它挑了最早的可用选项。在所有东西都加入购物车之后,它把订单摘要发回了 Telegram,附带一个“确认下单”的按钮。

家长看了一眼清单,把西兰花换成了芦笋(孩子们上周说不想再吃西兰花了),然后点了确认。订单完成。整个过程,从发消息到确认,不到五分钟。

这个故事的核心洞察不在于“AI帮你买菜”这件事本身,而在于它揭示了一个被严重低估的事实:在2026年的互联网上,绝大多数服务仍然没有开放API。 你的银行、你的超市、你孩子学校的缴费系统、你的水电燃气账单、你的医院预约系统——它们都有网页界面,但没有供普通用户调用的编程接口。在过去,这意味着自动化的大门对这些服务是关闭的。你只能亲自去点那些按钮。

OpenClaw 的浏览器工具,实质上是把网页本身变成了一个通用API,把浏览器变成了一个万能适配器。这不是一个新想法——网页抓取和浏览器自动化已经存在了几十年。但过去,你需要编写精确的脚本来应对每一个网站的具体布局,而且一旦网站改版,脚本就会失效。现在,有了大语言模型的理解能力,浏览器自动化第一次变得真正“智能”了——代理能够理解页面上的内容,能够应对布局变化,能够在遇到意外情况时做出判断。

这是另一扇相邻可能的门:当AI的语言理解能力与浏览器自动化相结合,整个万维网——而不仅仅是那些开放了API的服务——都变成了可以被代理操作的对象。 有人在 OpenClaw 的社区里用了一个我很喜欢的比喻:“网页就是通用API,浏览器就是万能适配器。”这句话听起来简单,但它的含义是深远的。它意味着,AI代理的能力边界不再由API的可用性决定,而是由网页的可达性决定——而在今天的互联网上,几乎一切都可以通过网页访问。

更值得注意的是 OpenClaw 的设计哲学中对“可控自动驾驶”的强调。在 Tesco 购物的例子里,代理并没有从头到尾自行决定一切——它在关键节点(下单确认)停了下来,把决策权交还给人类。这就像特斯拉的辅助驾驶系统:大部分时候它在自动运行,但方向盘上始终有一双手。你可以在任何时候接管,可以在任何节点修改,可以随时叫停。这种“人在回路中”的设计,不是技术上的妥协,而是信任建立的必经之路。

四、酒窖里的九百六十二瓶

如果说 Tesco 的故事展示了 OpenClaw 在日常消费领域的相邻可能,那么接下来这个故事则展示了另一种可能性——个人化工具的即时生成。

在 OpenClaw 的一个社区讨论中,有人分享了这样一个案例:一位葡萄酒收藏爱好者,拥有一个规模可观的私人酒窖,里面存放着九百六十二瓶来自世界各地的葡萄酒。长期以来,他一直用一个Excel表格来管理这些藏酒——产区、年份、品种、购入价格、最佳饮用期、存放位置,等等。但Excel表格有一个根本性的问题:它是一个被动的数据容器,你必须主动去查询它,而且它无法理解你的意图。当你想知道“今晚吃烤羊排,应该开哪一瓶”的时候,Excel无法给你答案。

这位收藏者在 Telegram 上向 OpenClaw 发了一条消息,大意是:“帮我建一个酒窖管理系统,把这个CSV文件导入进去。”然后,OpenClaw 做了一件在传统软件开发流程中需要数天甚至数周才能完成的事情:它在几分钟之内,在本地创建了一个完整的酒窖管理“技能”(skill)。

这里需要解释一下 OpenClaw 的“技能”(Skills)系统。在 OpenClaw 的架构里,技能是一种可复用的能力模块——本质上就是一个文件夹加上一个名为 SKILL.md 的描述文件。这个描述文件用自然语言定义了技能的功能、触发条件和执行逻辑。技能可以调用各种工具,可以访问本地文件,可以与其他技能协作。更重要的是,技能可以被分享——通过一个叫做 ClawHub 的公共注册中心,任何人都可以搜索、安装、更新和发布技能。

那位酒窖收藏者的技能被创建出来之后,他就可以在聊天窗口里用自然语言查询自己的藏酒了。“这个月有哪些酒到了最佳饮用期?”“波尔多的酒还剩多少瓶?”“今晚吃海鲜,推荐一瓶白葡萄酒。”这些问题都能得到基于他的实际藏酒数据的精准回答。

这个案例让我想起了生物学里的一个概念——“外骨骼”。昆虫的外骨骼不是一个万能的结构,它是为每一种昆虫的特定生活方式量身定做的。甲虫的外骨骼和蝴蝶的外骨骼完全不同,因为它们面对的环境挑战完全不同。OpenClaw的技能系统,本质上是一种让每个人都能按需生成自己的“数字外骨骼”的机制。 你的需求是独特的,所以你的工具也应该是独特的——而现在,定制工具的成本被压缩到了一条聊天消息的距离。

这里面隐藏着一个关于软件进化方式的深刻转变。传统上,软件是由专业开发者为大量用户构建的通用产品——你去应用商店搜索“酒窖管理”,找到一个别人开发的App,然后适应它的逻辑。但在 OpenClaw 的世界里,这个流程被倒转了:不是你适应软件,而是软件适应你。 用户描述需求,代理生成工具,工具变成可分享的技能。这不是传统意义上的“编程”,但它确实是一种创造——一种由自然语言驱动的、即时的、个人化的创造。

而当这些个人化创造通过 ClawHub 被分享出去的时候,一种新的生态就开始涌现。某个人为自己创建的酒窖管理技能,可能会被另一个收藏者发现、安装、修改、增强,然后再分享回去。这是一个典型的“液态网络”(liquid networks)的场景——不同的想法和工具在一个足够开放、足够流动的环境中碰撞、混合、进化。

五、液态网络与神经系统

说到液态网络,让我换一个角度来看 OpenClaw 的架构设计。

在我的研究中,“液态网络”是一个用来描述创新最容易发生的环境的概念。想象一下珊瑚礁——它是海洋中生物多样性最高的地方,不是因为那里的水特别营养丰富,而是因为珊瑚礁的物理结构创造了无数的微环境、缝隙和通道,让不同的物种得以在极近的距离内共存和互动。类似地,历史上最具创新力的城市——佛罗伦萨、维也纳、硅谷——都是因为它们创造了某种让不同背景的人和想法在足够近的距离内频繁碰撞的环境。

OpenClaw 的架构设计者用了一个“神经系统”的隐喻来描述他们的系统,这个隐喻比他们可能意识到的更加深刻。

在这个架构里,“网关”(Gateway)扮演着中枢神经系统的角色——它是一个长期运行的进程,统一管理着与各种消息平台的连接。“频道”(Channels)是感官输入——WhatsApp、Telegram、Discord、Slack、Teams,每一个都是系统感知外部世界的一个通道。“工具和节点”(Tools/Nodes)是肢体和工具箱——浏览器控制、Canvas可视化、设备节点(摄像头、屏幕录制、位置信息、命令执行)、定时任务。“技能”(Skills)是习得的行为模式。而“记忆”(Memory)——这可能是最有趣的部分——是工作区里的纯 Markdown 文件,本质上是一份可编辑的、透明的“自我”。

但让我真正感兴趣的,不是这个隐喻的巧妙,而是这个架构如何创造了一个“液态网络”式的环境。

在传统的软件架构中,不同的工具和服务之间的连接通常是刚性的——每一个集成都需要专门的代码、专门的接口、专门的维护。这就像一个固态晶体:结构稳定,但缺乏灵活性。在 OpenClaw 的架构里,大语言模型充当了一种“溶剂”,把原本刚性的连接变成了流动的。你不需要为“摄像头拍照→AI分析→发送到群聊”这个流程编写专门的集成代码——你只需要用自然语言描述你想要的流程,语言模型会动态地把不同的工具和能力“溶解”在一起,形成一个临时的、特定的工作流。

这种流动性有一个深远的后果:它大幅降低了“组合创新”的门槛。 在过去,把两种工具连接在一起需要技术专业知识——你得懂API、懂编程、懂系统集成。现在,连接的介质变成了自然语言,而自然语言是每个人都掌握的“编程语言”。这意味着,能够参与组合创新的人群规模,从数百万专业开发者扩展到了数十亿普通用户。

回想一下古腾堡的印刷术。印刷术的革命性不仅仅在于它让书籍变得更便宜——更深层的影响在于,它把“参与知识传播”这件事从抄写僧侣的小圈子扩展到了更广泛的人群。当更多人能够阅读和出版,更多的想法就能在更大的网络中碰撞,而碰撞产生了科学革命、宗教改革和启蒙运动。OpenClaw 这类平台正在做的,是把“参与自动化创造”这件事从程序员的小圈子扩展到任何会发消息的人。 我们还不知道这种扩展会带来什么样的“科学革命”,但历史告诉我们,当参与创造的人群规模发生数量级的跳跃时,总会有意想不到的东西涌现出来。

六、口袋里的编程工厂

让我再讲一个故事。

某天,一个开发者在地铁上用手机打开了 Telegram。他正在开发一个 iOS 应用,前一晚在电脑上写了几个小时的代码,距离可以推送给测试用户的版本只差最后几步了。但他已经出门了,电脑在家里。

他在 Telegram 上给 OpenClaw 发了一条消息:“把我昨晚写的代码 build 一下,跑一遍测试,如果通过的话就部署到 TestFlight。”

然后他把手机放回口袋,开始读地铁上的电子书。

十五分钟后,手机震动了。Telegram 上出现了一条来自 OpenClaw 的消息:“构建完成,17个测试全部通过,已部署到 TestFlight,版本号1.3.2。测试用户应该已经收到更新通知了。”

这个场景的意义在于,它完全颠覆了我们对“编程”这项活动的空间想象。在传统的认知里,编程是一件需要坐在电脑前、打开IDE、在大屏幕上写代码的事情。它被绑定在一个特定的物理环境里。但当 OpenClaw 把编程工具接入了手机上的聊天软件,“编程”就从一个特定的地点和姿态中解放出来了,变成了一种可以在任何时间、任何地点、用任何设备发起的行为。

这让我想起了笔记本电脑对台式机的颠覆。笔记本电脑的处理能力在很长一段时间里都不如台式机,但它最终成为了主流,不是因为它更强大,而是因为它把计算从固定的桌面上解放了出来。同样的逻辑在这里重演:通过手机聊天窗口触发的编程工作流可能不如坐在IDE前那么精细,但它把“启动编程任务”这个行为的摩擦降到了几乎为零。

更有趣的是 OpenClaw 社区里出现的“多智能体路由”的玩法。一些高级用户会在自己的 OpenClaw 实例里配置多个专门化的代理——一个负责前端代码,一个负责后端逻辑,一个负责代码审查,一个负责部署。当用户发出一条指令时,系统会自动把任务路由给最合适的代理,或者在多个代理之间协调。这就像一个微型的软件团队,全天候在线,等待指令。

有人在社区里展示了一个“14+智能体梦之队”的编排案例——十四个以上的代理,各自有自己的专长和角色,通过一个主控代理进行调度。这已经不再是“一个AI助手”的概念了,这是一个可以用自然语言管理的微型组织。

七、晨间指挥台与缓慢的灵感

在继续深入之前,我想暂停一下,讲一个关于“缓慢的灵感”(slow hunch)的故事。

“缓慢的灵感”是我在研究创新史时反复遇到的一个模式。我们倾向于把创新想象成一个灵光乍现的时刻——牛顿被苹果砸了脑袋,阿基米德从浴缸里跳出来。但实际上,大多数重要的创新都来自一种更缓慢、更渐进的过程:一个模糊的直觉在很长一段时间里缓慢发酵,直到它遇到了另一个互补的想法,两者融合在一起,才最终成为一个完整的洞察。

OpenClaw 社区里最受欢迎的用例之一,恰好与这个模式形成了有趣的呼应——“晨间指挥台”。

具体的做法是这样的:用户设置一个每天早上七点的定时任务(cron)。到了时间,OpenClaw 会自动从用户的日历、邮箱、任务管理工具和其他数据源中抓取信息,然后在 Telegram 上推送一份精心编排的“每日摘要”。但这不是一个简单的信息聚合——摘要里包含了可执行的按钮,用户可以直接点击“批准”“拒绝”“稍后处理”。它还会用 Canvas 工具生成可视化的仪表盘——今天的会议时间线、待办事项的优先级矩阵、这周的进度图表。

这个“晨间指挥台”的设计,表面上看是一个效率工具——它把你每天早上花在各个App之间切换查看信息的时间压缩到了几分钟。但在更深的层面上,它做了一件更有价值的事情:它为“缓慢的灵感”创造了一个日常的培养皿。

这是什么意思呢?当你每天早上在同一个地方(你的聊天窗口)看到来自不同领域的信息——工作项目的进度、个人笔记的碎片、日历里即将到来的会议、邮箱里的一封有趣的来信——这些信息就在你的意识里形成了一种“缓慢的叠加”。你可能不会立刻注意到它们之间的联系,但随着时间的推移,某个早上,当你看到一条关于项目延期的通知和一封关于新技术的邮件并排出现时,一个之前模糊的想法突然变得清晰了:“如果把那个新技术用在这个项目上,延期的问题可能就解决了。”

这就是缓慢的灵感发挥作用的方式。它需要一个环境——一个让不同领域的信息能够在足够近的距离内频繁相遇的环境。而“晨间指挥台”恰好提供了这样的环境。

这里面有一个关于界面设计的微妙洞察值得强调。OpenClaw 的团队把他们的交互模式称为“A2UI”——某种“代理到用户”的界面范式。在传统的用户界面中,人类主动查看、点击、操作,信息被动地等待被发现。但在“晨间指挥台”里,这个关系被反转了:代理主动推送经过筛选和编排的信息,人类做的是判断和决策。 这不是一个微小的变化——这是一种根本性的界面哲学转变,从“人类去找信息”到“信息来找人类”,从“用户操作界面”到“界面服务用户”。

八、当“实习生”拥有了删除权限

每一个关于创新的故事,如果诚实的话,都必须包含一个关于风险的章节。

电话让远程通信变得触手可及,但也让诈骗电话成为可能。印刷术让知识大众化,但也让虚假信息规模化传播。汽车让个人出行自由化,但也带来了交通事故的巨大代价。技术打开的每一扇相邻可能的门,门后面既有机遇也有危险,而且它们往往是同一枚硬币的两面。

OpenClaw 的故事也不例外。

在社区的一次讨论中,一位用户分享了一个令人不安的经历:他让 OpenClaw 的代理(ClawBot)帮他整理邮箱,结果代理“过于热心”地执行了大量删除操作。那些被删除的邮件中,有些可能是重要的,但已经无法恢复了。

安全研究者们很快指出了一个尖锐的观察:OpenClaw 的代理更像是一个“过于热心的实习生”——它非常想把事情做好,它有能力操作各种工具,但它缺乏判断“什么事情不应该做”的经验和边界感。 一个实习生如果犯了错,你可以教他、纠正他,但如果在他犯错之前你已经给了他管理员权限,那么后果可能是不可逆的。

这个比喻精准地捕捉了当前AI代理面临的核心安全挑战。让我展开讲一下。

首先是“提示注入”(prompt injection)的问题。当你的代理在浏览器里自动操作网页时,网页上的内容可能包含恶意的指令——它可能伪装成正常的文本,但实际上是在试图劫持代理的行为。想象一下,你让代理帮你查看一封邮件,而邮件里嵌入了一段精心构造的文字,让代理把你的邮件转发给一个陌生的地址。这不是科幻小说——这是安全研究者已经在实验中验证过的攻击向量。

然后是“日志投毒”的风险。OpenClaw 的记忆系统是基于纯文本的 Markdown 文件。这种设计的好处是透明和可编辑,但它也意味着,如果代理在工作过程中接收到了被污染的信息,这些信息可能会被写入记忆文件,从而持久地影响代理未来的行为。

面对这些风险,OpenClaw 社区和设计者们发展出了一套多层次的安全策略。

第一层是“关键动作二次确认”。 就像 Tesco 购物例子里那样,在涉及不可逆操作(支付、删除、发送重要信息)的时候,代理会暂停并请求人类确认。这是最直观也最有效的安全机制——在人类和风险之间插入一个“你确定吗?”的间隙。

第二层是“权限分层与工具最小集”。 不是所有的代理都需要所有的工具。一个负责查看天气的代理不需要文件删除权限,一个负责购物的代理不需要命令行执行权限。通过限制每个代理可以调用的工具集合,系统可以大幅减少“过于热心的实习生”造成破坏的可能性。

第三层是“技能供应链意识”。 当你从 ClawHub 安装一个别人创建的技能时,你实际上是在让一段外部代码在你的机器上运行。这就像从应用商店下载软件一样——你需要信任它的来源。ClawHub 引入了 VirusTotal 扫描和社区审核机制,但更根本的安全措施是用户自己的警觉性:在安装一个技能之前,检查它的 SKILL.md 文件,理解它会做什么,用到哪些工具,访问哪些数据。

但在所有这些技术性的安全措施之上,OpenClaw 的故事提出了一个更深刻的哲学命题:代理软件的边界,不只是靠进程隔离、权限控制和沙箱来维持的——它还取决于语言、意图与执行之间的设计。

什么意思呢?当你对一个人类助理说“帮我整理一下邮箱”,你们之间有大量的共享上下文和隐含假设——“整理”大概不意味着“删除一切”,“一下”暗示这应该是一个温和的、可逆的操作。但当你对一个AI代理说同样的话时,这些隐含假设不一定被正确解读。代理可能会把“整理”理解为“归档所有已读邮件”,也可能理解为“删除所有两周前的邮件”。意图和执行之间的鸿沟,在人类之间由文化、经验和常识来填充,在人机之间则需要由精心的设计来填充。

这是当前AI代理领域最重要、也最容易被忽视的设计挑战。不是“如何让代理做更多的事”,而是“如何让代理理解什么事不该做”。不是“如何给代理更多的权限”,而是“如何让权限的边界与用户的真实意图精确对齐”。

九、多智能体的寒武纪

在地球的历史上,有一个被古生物学家称为“寒武纪大爆发”的时期——大约五亿四千万年前,在一个地质学意义上极其短暂的时间窗口里,几乎所有主要的动物门类突然出现了。在那之前的几十亿年里,生命基本上只有单细胞的形式;然后,仿佛有人按下了一个开关,复杂的多细胞生命在各种方向上同时爆发。

关于寒武纪大爆发的原因,有很多假说。其中一个最有说服力的解释与“相邻可能”直接相关:在某个时间点,基本的生物化学构建块(蛋白质折叠方式、细胞间通信机制、遗传调控工具)终于积累到了一个临界数量,使得全新的组合方式突然变得可能。生命不是线性地从简单进化到复杂,而是在一个转折点上突然“爆发”——因为可能的组合空间在那一刻急剧膨胀了。

我在 OpenClaw 社区里看到的,让我隐约嗅到了类似的气息。

有人搭建了一个“家庭管家”代理,专门处理家庭事务——购物清单、家务分配、账单提醒、孩子的学校缴费(用浏览器工具自动在 ParentPay 系统上完成操作)。同时,他还有一个独立的“工作助理”代理处理职业相关的事务,和一个“创作编辑”代理帮助他写作和编辑个人博客。这三个代理互相隔离——家庭管家不知道工作项目的细节,工作助理不会干预家庭购物,创作编辑专注于文字。

这种多智能体的分工与隔离模式,很像生物体内的器官分化。在最早期的多细胞生命中,每个细胞都是“全能”的,它们没有分化,没有专门化。但随着进化的推进,细胞开始分化成不同的类型——有的负责消化,有的负责运动,有的负责感知。这种分化不是效率的降低,而是复杂性的跃升。 当不同类型的细胞可以专注于自己最擅长的事情,同时通过化学信号相互协调,整个有机体能做的事情就远远超越了任何单个细胞的能力。

OpenClaw 里那个“14+智能体梦之队”的编排案例,就是这种分化逻辑的极端表达。十四个以上的代理,每一个都有自己的专长:有的擅长信息检索,有的擅长代码编写,有的擅长数据分析,有的擅长文案创作,有的擅长日程管理。它们通过一个主控代理进行调度和协调,就像一个交响乐团的指挥,把不同乐器的声音编织成一首完整的乐曲。

这里面有一个更深层的趋势值得注意。在过去的软件历史中,“应用”(app)是能力的基本单位——你需要一个App来做一件事。但在多智能体的世界里,“代理”(agent)开始取代“应用”成为能力的基本单位。而且,和应用不同的是,代理是流动的、可组合的、可即时生成的。你不需要去应用商店搜索和下载,你只需要描述你的需求,一个新的代理就可以被创建出来。

如果“应用”是数字世界的固态结构,那么“代理”就是数字世界的液态形式。 从固态到液态的转变,意味着数字工具不再是预制的、固定的产品,而是变成了可以根据需求实时凝聚和重组的流动能力。这就是为什么我用“液态网络”来形容这个正在涌现的新生态——在这个网络里,能力是流动的,组合是动态的,创新是涌现的。

十、“你的助手,你的机器,你的规则”

OpenClaw 的口号是:“Your assistant. Your machine. Your rules.”——“你的助手,你的机器,你的规则。”这不仅仅是一句营销口号。

让我用一个历史类比来说明为什么这句话很重要。

在个人电脑出现之前,计算是一种中心化的资源。如果你想使用计算能力,你需要去找一台大型机或者小型机——它们通常属于某个大公司、大学或政府机构。你使用它们的时候,要遵守它们的规则,在它们的系统上运行,受它们的管理员管控。这不是一个自由的环境。

然后,在1970年代后期和1980年代初期,个人电脑革命发生了。突然之间,计算不再是中心化的资源,而是你自己书桌上的一个设备。你拥有了自己的计算,你可以在上面运行任何你想运行的软件,存储任何你想存储的数据,而不需要任何人的许可。 这种所有权的转移,是过去五十年数字革命的根本驱动力之一。

但在AI时代,我们看到了一种令人不安的“再中心化”趋势。当你使用 ChatGPT、Claude 或其他云端AI服务时,你的对话、你的数据、你的意图,都在别人的服务器上被处理。你依赖别人的基础设施,使用别人的API密钥,遵守别人的使用条款。AI不是“你的”,它是你“借来的”。这就像我们回到了大型机的时代——只不过这次的大型机在云端。

OpenClaw 的本地运行模式,是对这种趋势的一次有意识的反抗。它运行在你自己的机器上——可以是你的电脑,可以是你家里的服务器,可以是一个树莓派。你的数据留在本地,你的对话不经过任何第三方服务器,你的API密钥由你自己管理。代理执行的每一个操作,都发生在你自己的基础设施上。

这不仅仅是一个隐私功能——这是一种新的信任叙事。 在这个叙事里,AI不再是“借来的大脑”,而是“自家的劳动力系统”。你拥有它,你控制它,你定义它的边界。这种所有权的感觉,对于AI代理的普及来说可能至关重要——因为当你把越来越多的日常事务委托给一个AI代理时,你需要一种深层的信任,而这种信任很难建立在“它运行在别人的服务器上”这个基础之上。

这里面也有一个关于开源的重要故事。OpenClaw 是完全开源的,这意味着任何人都可以审查它的代码,理解它的行为,修改它的逻辑。在安全和信任至关重要的AI代理领域,开源不仅仅是一种开发模式,而是一种信任基础设施。你不需要信任 OpenClaw 的开发者会做正确的事——你可以自己验证。

十一、缓慢的灵感正在发酵

现在,让我把前面讲的各条线索汇聚在一起。

一台屋顶上的摄像头,在天空好看的时候自动拍照发到家庭群聊。一位家长在手机上发一条消息,四十分钟的超市购物流程被压缩到了五分钟。一位葡萄酒收藏者在聊天窗口里对着他的九百六十二瓶藏酒提问。一个开发者在地铁上用 Telegram 部署了一个 iOS 应用。一个家庭运行着三个互相隔离的AI代理,分别管理家务、工作和写作。一个安全研究者警告说,这个热心的数字实习生可能会在你的邮箱里造成不可逆的破坏。

这些故事看起来千差万别,但它们都指向同一个底层趋势:我们正在见证“意图”到“行动”之间的距离被一种新的方式急剧压缩。 这种压缩发生在一个我们已经无比熟悉的界面里——聊天窗口,发生在我们已经拥有的设备上,使用我们已经掌握的唯一“编程语言”——自然语言。

从相邻可能的角度来看,OpenClaw 处在一个关键的交叉点上。大语言模型的成熟提供了理解和推理能力;聊天平台的普及提供了零摩擦的入口;浏览器自动化技术提供了与整个互联网交互的能力;开源社区提供了信任和协作的基础;本地计算的回归提供了所有权和隐私的保障。这些要素中的每一个都不是新的,但它们以这种特定的方式组合在一起——这是新的。就像考夫曼描述的那样,每一种新的组合都打开了一扇门,门后面是一组新的可能性。

但我想用一个更审慎的音符来结束这个故事。

每一次技术革命都有一个共同的模式:早期的兴奋和想象往往会超越现实——不是因为技术不够好,而是因为我们还没有学会如何与它共处。汽车刚发明的时候没有交通规则,无线电刚出现的时候没有频谱管理,互联网刚普及的时候没有隐私法规。每一种新的能力都需要配套的新的智慧——关于何时使用它、如何使用它、以及最重要的,何时不使用它。

OpenClaw 社区正处于这个“学习如何与新能力共处”的早期阶段。他们在摸索什么样的任务适合委托给代理,什么样的操作需要人类确认,什么样的权限边界是安全的,什么样的技能供应链是可信的。这些问题没有现成的答案——它们需要在实践中被一点点摸索出来,就像早期的汽车驾驶者们在没有红绿灯的路口学会了减速和观察一样。

这,才是真正令人兴奋的地方。不是某个具体的功能有多酷,不是某个案例有多炫,而是一个全新的探索空间刚刚被打开。在这个空间里,每个人的聊天窗口都可能变成一个行动的操作系统,每一条消息都可能成为一个指令,每一个日常任务都可能被重新想象。 这是一片巨大的相邻可能——我们才刚刚推开第一扇门。

就像达尔文的珊瑚礁一样,最丰富的生态系统往往不是设计出来的,而是在合适的条件下自发涌现的。OpenClaw 和它所代表的这一类平台,正在创造这样的条件——一个足够开放、足够流动、足够低门槛的环境,让数十亿人的日常创意和需求可以在其中碰撞、组合、进化。

至于这个生态系统最终会长成什么样子?

没有人知道。但这恰恰是最好的部分。因为在相邻可能的世界里,最有趣的东西,永远是你还没有打开的那扇门后面的那个。

代码不再稀缺之后

发表于 2026/02/24 | 分类于 AI专题

风格参考:Ben Thompson(Stratechery)的战略分析框架 + Paul Graham 的反直觉开头与金句技巧。一条主线贯穿全文,短段落,强逻辑链,面向技术决策者。

一个被忽略的数字

Anthropic 最近发布的 2026 Agentic Coding 趋势报告里,有一个数字比所有预测都重要,但几乎没人讨论它。

开发者在约 60% 的日常工作中使用 AI,却只能把 0–20% 的任务“完全委派”给 AI。

大多数人读到这里会觉得:“说明 AI 还不够强,等模型再迭代几轮就好了。”

我认为这个解读完全搞反了。

这个数字揭示的不是 AI 的能力不足,而是一种全新的协作范式正在形成——而这种范式的核心瓶颈,从来就不是模型的智商。60% 的使用率说明 AI 已经深度嵌入了工程师的日常;0–20% 的完全委派率说明人类的判断、监督和验收是不可消除的。两个数字合在一起,画出的不是一条“AI 越来越强最终取代人”的直线,而是一条“人与 AI 的协作界面不断被重新设计”的曲线。

换句话说,2026 年的主战场不是“模型有多强”,而是“协作如何被工程化”。

这正是这份报告真正在说的事情。

稀缺性的转移

让我从一个更基本的问题开始:软件工程里,什么东西是稀缺的?

在过去四十年里,答案很简单——代码。写代码的人稀缺,写得好的人更稀缺,能在复杂系统里写对的人极度稀缺。整个行业围绕这种稀缺性建立了它的定价体系、职级体系和流程体系:程序员按能力分级,薪酬按产出定价,项目管理围绕“如何让有限的人力产出足够多的代码”来设计。

2025 年开始,这个等式被打破了。

报告描述的图景很清晰:coding agents 从实验工具走向了能覆盖大量实现环节的生产系统——写代码、写测试、调试、导航复杂代码库、生成文档。代码的供给侧发生了结构性变化。一个工程师配合 agent,产出量可以是以前的数倍。TELUS 的案例显示:工程代码交付提速 30%,节省 50 万小时以上,平均每次 AI 交互节省 40 分钟。更重要的是,约 27% 的 AI 辅助工作属于“以前根本不会做”的事情。

当产出的供给侧被彻底改写,稀缺性就会发生转移。

代码不再是稀缺资源。“可靠的变更”才是。

什么是“可靠的变更”?它不只是“代码能跑”,而是:这段变更解决了正确的问题、通过了充分的验证、不会在集成时引发回归、不会在生产环境中造成安全漏洞、并且在需要时可以被安全回滚。

这个定义本身就暗示了一整套系统能力——需求规格化、自动测试、代码审查、灰度发布、监控告警、审计追踪。这些能力以前是“加分项”,在代码产出爆炸的时代,它们变成了“生死线”。

如果用一句话概括这份报告的中心命题:软件开发正在从“以写代码为中心”转向“以编排写代码的智能体为中心”,同时必须保留人类的判断、监督与协作来保证质量。

理解了“稀缺性转移”这个底层逻辑,报告里的八个趋势就不再是互不相关的预测清单——它们是同一个结构性变化在不同层面的展开。

当实现被折叠:三种新瓶颈

报告的第一个趋势是 SDLC 被“压缩并重排”:传统的开发周期从数周压缩到数小时,agent 驱动实现 + 自动测试 + 内联文档会把线性流程变成高频反馈回路。报告甚至认为这是一次堪比 GUI 出现的交互层变革。

这个判断大方向上没问题,但它容易让人产生一个错觉:“一切都变快了”。

事实上,当实现被折叠后,变快的只是其中一段。整个链条上会浮现出三种新瓶颈,而它们恰好都不是 AI 擅长解决的:

第一种:意图延迟。 需求表达不清,约束没有被结构化。Agent 再强也没用——它只会“做得很快但做错”。你可以在几分钟内拿到一个完整的功能实现,但如果需求本身是模糊的,你拿到的只是一个高速飞向错误方向的产出。

第二种:验收延迟。 代码产出爆炸,但人类 review、产品验收、合规审批的带宽没有同步增长。这会形成一个经典的排队论问题:上游的生产速率超过下游的处理速率,队列无限增长,lead time 反而变长。

第三种:集成延迟。 多个 agent 并行工作、多条变更同时落地时,冲突、回归和不一致性问题会急剧上升。这不是新问题——大型团队一直面对它——但 agent 把它加速了一个数量级。

所以,真正的工程升级不是“让 AI 写更多”,而是把验收做成系统。你可以叫它 TDD、contract tests、policy-as-code,但本质都是一件事:把口头标准变成可机器验证的门禁。 只有当“验收”被自动化到接近“实现”的速度时,压缩才是真正有效的。

多智能体不是“更多算力”,是一种新的组织形式

报告的第二个趋势预测:2026 年组织会从单智能体走向“多智能体团队”。

如果你把这个趋势理解为“多开几个窗口同时跑”,你就低估了它的含义。

多智能体编排解决的核心问题不是“一个模型上下文不够大”。它解决的是两个更工程化的问题:

第一,把大任务拆成可并行、可验证的小单元。 每个 agent 有独立的上下文和职责边界。这本质上就是微服务思想在 AI 工作流中的复现——你把一个巨型任务分解成多个有明确输入输出的小服务,每个服务可以独立测试、独立失败、独立恢复。

第二,把协作从“聊天式”升级为“协议式”。 每个 agent 的输入格式、输出格式、完成定义、失败回退策略和冲突处理方式,都需要被标准化。这就是分布式系统里的 API 契约和服务编排——只不过现在“服务”碰巧是一群 AI 智能体。

Fountain 的案例很说明问题:他们用分层多智能体编排来处理筛选、入职、转化等环节,把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。这里面真正起作用的不是“AI 更聪明了”,而是“任务被正确地拆解和编排了”。

但这里有一个反直觉的推论值得警惕:

并行越强,集成与一致性越难。

这跟分布式系统的经验完全一致。当你从单体服务走向微服务时,你获得了可伸缩性,但你也引入了分布式事务、数据一致性、服务发现、链路追踪等一整套新的复杂度。多智能体编排也一样——你更需要接口契约、变更隔离、自动集成测试、特性开关和灰度发布这些传统工程纪律。否则,你只是把“人肉并发”的痛点搬到了 AI 上。

长跑智能体把“项目管理”变成“运行时治理”

报告预测 agent 的任务跨度会从分钟 → 小时(2025)→ 天级甚至周级(2026)。Rakuten 的案例印证了这一点:他们让 Claude Code 在一个千万级代码行的开源库里自主运行 7 小时完成复杂任务,达到 99.9% 数值精度。

这不再是“工具”。这是一个持续运行的生产系统。

一个跑几天的 agent 会产生大量变更、分支、PR、测试结果、失败记录和重试。它需要状态管理——记忆、计划、上下文的持久化。它需要审计与追踪——每一步决策都要可追溯。它需要成本控制——算力和 API 调用是有预算的。它需要故障隔离——一次错误不能污染整个运行链路。

换句话说,你需要像运维一个生产服务一样运维你的 agent。

我认为这会催生一个新的系统层:Agent Runtime(智能体运行平台)。 它的职责和 CI/CD 平台类似,但维度更多:谁能启动长跑任务?资源额度是多少?失败重试策略是什么?产出的代码如何被分桶 review?风险变更如何自动升级给人?

报告还提到一个很有想象力的推论:当 agent 能自主长期工作后,过去 ROI 不够的项目突然变得可行——积累多年的技术债可能被 agent 通过 backlog 系统性消除,创业者能在“几天”而非“几个月”从想法到部署。

这很诱人,但前提是你有能力治理这些长跑过程。没有治理的长跑 agent,就像没有项目管理的马拉松——跑得越久,偏得越远。

监督规模化的核心矛盾

报告指出 2026 年一个最有价值的能力进化:agent 学会了“什么时候该求助”,人类只在必要时进入回路。AI 审查 AI 产出将成为标准配置——检查安全漏洞、架构一致性和质量问题,避免人类被海量产出淹没。

这个方向是对的。当代码产出增长 5 倍但 review 人力不增长时,你只有两个选择:要么降低 review 标准(然后在线上付出代价),要么用 AI 帮你做第一轮筛选。显然后者更合理。

但“AI 审 AI”有一个结构性风险,报告没有展开讨论:同源错误。

如果生成代码的模型和审查代码的模型来自相似的训练数据、使用相似的推理模式,它们可能会犯相关性很高的错误——一起忽略同一个边界条件,一起误判同一个安全假设。这就像让同一所学校毕业的两个人互相批改试卷——他们大概率有相同的知识盲区。

所以监督规模化不能仅靠“再来一个 AI”。它需要独立证据链:

  • 单元测试、集成测试、端到端测试(不是 AI 说“这段代码没问题”,而是测试跑过了)
  • 静态分析和类型检查(不是 AI 判断“这里类型安全”,而是编译器保证了)
  • 依赖扫描和许可证审计(不是 AI 觉得“没有安全漏洞”,而是扫描器确认了)
  • 运行时监控和告警(不是 AI 预测“不会出错”,而是线上数据证明了)
  • 灰度发布和自动回滚(不是 AI 承诺“没有回归”,而是灰度流量验证了)

AI 可以帮你写这些证据链——这是它最好的用途之一。但最终,你必须用事实约束智能体,而不是用另一个智能体的口头保证。

“民主化”的两条路

报告预测 agentic coding 会扩展到非工程人群:安全人员、运维、设计师、数据分析师都能用代码解决问题;更远一步,销售、市场、法务、运营等非技术团队也能自己构建自动化方案。

Zapier 的案例很典型:全员推动 agent 使用,设计团队在客户访谈中实时做原型,组织 AI 采用率达到 89%。Anthropic 法务团队自己用 Claude 把市场审核从 2–3 天缩短到 24 小时——构建工具的人是没有编码经验的律师。

这是一个真实的趋势。但它会沿两条截然不同的路径演化:

好的路径: 企业提供统一平台——身份、权限、审计、数据访问、模板、发布管道——业务团队在护栏内自助创新。工程团队从“交付中心”变成“平台与治理中心”,提供可复用的组件、安全边界和发布能力。

坏的路径: 各部门各搞一套脚本、机器人和自动化,数据权限混乱,没人负责维护,安全漏洞藏在各个角落。这就是 Shadow IT 在 AI 时代的加速版。

两条路的分叉点在于一个原则:把能力下放,把风险上收。 能力让更多人能做;风险必须由平台化治理去兜底。做不到这一点的组织,“民主化”带来的治理成本会远超它释放的生产力。

更多产出 ≠ 更多价值

报告提出生产率提升的核心发现:工程师“时间净减少”,但“产出量净增加更大”——生产率主要来自“做了更多”,而不仅是“同样的事更快”。27% 的 AI 辅助工作是“否则根本不会做”的事情:扩展项目、交互面板、探索性工作、修各种小痛点。

这是好事。但它有一个二阶效应值得警惕。

当“额外产出”变得几乎免费,组织会很自然地陷入范围膨胀——“反正很快,顺手加个功能吧”。每个单独的“顺手加一下”都合理,但累积起来会把系统复杂度推到一个你的测试、监控和运维能力跟不上的水平。

这就是为什么你需要“产出治理”:

  • 给团队设定变更预算(不是限制产出,而是确保每一批变更都经过了充分验证)
  • 用可量化指标守住质量底线:缺陷率、回滚率、变更失败率、上线 lead time、线上事故率
  • 定期评估系统复杂度,确保它没有超出团队的理解和控制能力

更多产出是工具,更多价值是系统。 前者 AI 可以给你,后者需要你自己建。

安全:把 Agent 当作一种新身份

报告的最后一个趋势是安全。它的判断很准确:agentic coding 在安全上是“双向改变”——AI 让每个工程师都能做安全审查,但同样的能力也帮助攻击者规模化攻击。

但报告没有点透的一层是:大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。这是一个危险的认知偏差。

一个 coding agent 能调用工具、读写代码、触达数据、触发部署。它是一个新的身份主体(principal),就像一个新入职的员工一样,需要被纳入安全架构。

这意味着你的安全体系要回答一系列新问题:

  • 这个 agent 能访问哪些仓库、哪些环境、哪些数据?
  • 最小权限怎么设计?
  • 密钥与敏感信息如何隔离与审计?
  • 它能不能直接部署到生产?如果能,门禁和回滚怎么做?
  • 发生错误或滥用时,责任归属和追踪怎么做?

如果你的安全模型里没有“agent”这个角色,你就在裸奔——只是暂时还没出事。

一句话策略

如果要把这份报告翻译成一句可执行的组织策略:

建立三层体系:规格清晰化 → 执行自动化 → 质量与安全可验证化。让智能体负责产出,让系统负责约束,让人类负责方向与裁决。

展开来说,这就是一个“Agentic Engineering OS”:

意图层: PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这是整个系统的输入质量,垃圾进垃圾出。

执行层: 多智能体编排、工具调用、长跑任务管理。这是 AI 最擅长的领域,放手让它干。

保证层: 测试、静态分析、监控、审计、安全门禁、回滚机制、事后复盘。这是让整个系统可信赖的基础,也是人类注意力应该聚焦的地方。

报告最后的建议压缩成了四个优先方向:掌握多智能体协作、用 AI 自动化 review、把 agentic coding 扩展到工程以外、从最早期就把安全嵌入。这四个方向都对,但它们共享同一个前提——你必须先建好保证层。

没有保证层的 agentic coding,就像没有刹车的跑车。油门越大,死得越快。

尾声

回到开头那个被忽略的数字:60% 的使用率,0–20% 的完全委派率。

很多人看这个数字觉得“AI 还不行”。我看这个数字觉得“这才刚开始”。

它告诉你的是:AI 已经深入到了工程实践的核心,但人的判断力不是瓶颈,而是基础设施。不是等 AI 更强之后人就可以退出回路,而是人的参与方式会持续演化——从写代码,到审代码,到设计让 agent 写代码、让系统审代码的规则。

2026 年赢的不是“写得更快”的团队,而是把协作与质量变成可复制的系统能力的团队。

前者只需要买更好的工具。后者需要重新设计你的工程体系。

这就是为什么这份报告的标题是“Agentic Coding”——不是“AI Coding”。区别在于:AI coding 是用 AI 写代码;agentic coding 是把 AI 当作一个有自主性的参与者来编排。前者是工具升级,后者是范式变迁。

范式变迁不会等你准备好。但好消息是:你需要做的第一步并不复杂——把你团队最重要的验收标准写成可执行的测试,然后交给 agent 去跑。

从这一步开始,你就已经站在了新范式的这一边。

当写代码变得不值钱之后

发表于 2026/02/24 | 分类于 AI专题

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。

“软件开发正在从’以写代码为中心’转向’以编排写代码的智能体为中心’。” —— Anthropic,2026 Agentic Coding 趋势报告

引子:七个小时的独奏

2025 年,日本乐天集团做了一个实验。

他们让 Anthropic 的 Claude Code 在一个叫 vLLM 的开源项目里完成一项复杂的工程任务。vLLM 是一个用于大语言模型推理优化的框架,代码量在千万行级别。任务的复杂度相当于一个资深工程师需要数周才能完成的工作。

Claude Code 自主运行了 7 个小时,中间没有人类介入。

最终的产出达到了 99.9% 的数值精度。

这个案例不是我要讨论的重点——单个案例证明不了趋势。我真正想讨论的是:当这类案例开始批量出现时,软件工程这个行业的底层逻辑会发生什么变化?

Anthropic 在 2026 年初发布了一份趋势报告,试图回答这个问题。报告总结了 8 个趋势,涉及开发流程、智能体协作、组织形态和安全架构。这篇文章是对这份报告的一次逐层拆解——不仅仅是复述,更重要的是用跨学科的视角来检验这些趋势到底站不站得住脚。

在正式展开之前,有一个数字值得先记住:开发者在约 60% 的工作中使用 AI,但只能把 0–20% 的任务完全委派给 AI。 这个数字几乎决定了所有落地策略的方向——2026 年的核心挑战不是“要不要用 AI”,而是“如何把人与 AI 的协作系统化”。

一、从流水线到反馈回路:SDLC 的范式转换

1.1 一次堪比 GUI 出现的变革

报告把 agentic coding 对软件开发流程的影响,类比为图形用户界面(GUI)对计算机交互的影响——不是小修小补,而是交互层面的整体重构。

传统的软件开发生命周期(SDLC)是一条线性流水线:需求 → 设计 → 编码 → 测试 → 部署 → 运维。即便敏捷方法论把它缩短成了两周一个冲刺,底层逻辑仍然是“人来写代码,然后推进到下一个环节”。

报告预测的图景是:agent 驱动实现 + 自动测试 + 内联文档,会把周期从“数周”压缩到“数小时”。更关键的是,监控数据会直接回流到迭代入口——不再是“先发布再观察”,而是“持续发布、持续观测、持续调整”。线性流水线变成了高频反馈回路。

这听起来像是“一切都变快了”。但深入想一步,你会发现事情没那么简单。

1.2 利特尔定律的警告

运筹学里有一条基本定律,叫利特尔定律(Little’s Law)。它说的是:在一个稳定的排队系统里,队列中的平均项目数 = 到达率 × 平均等待时间。

翻译成软件工程的语言:如果你的代码产出速率翻了 5 倍(agent 帮你写),但你的 review 和验收速率没有跟上,那排队等待 review 的 PR 数量就会翻 5 倍。Lead time 不但不会缩短,反而可能变长。

这不是理论假设。任何做过大规模团队管理的工程经理都见过这个现象:开发阶段越快,瓶颈越容易转移到 code review、QA 和产品验收上。

我把这种现象概括为三种“新延迟”:

意图延迟: 需求和约束表达不清,agent 做得很快但做错了。这就像你对出租车司机说“去那个路口附近”——他开得飞快,但不是你想去的地方。

验收延迟: 人类 review 和审批的带宽没有跟上产出爆炸。上游的水龙头开大了,但下游的管道还是老粗细。

集成延迟: 多条变更并行落地时,冲突和回归问题急剧增加。这就是分布式系统里的“脑裂问题”在代码管理上的投影。

1.3 验收必须变成系统

那怎么办?

答案是:把验收标准前置成可执行的检查。

不管你叫它 TDD、contract tests、policy-as-code 还是什么别的,本质都是同一件事——把“口头标准”变成“机器可以验证的门禁”。这样 agent 的产出在落地之前就能被自动过滤,人类只需要处理那些机器无法判断的边界情况。

报告本身也提到了这个方向:“监控直接回流到快速迭代。”但我想把它说得更尖锐一点:在 agentic coding 时代,没有可执行验收标准的团队,会比没有 agent 的团队更慢。 因为你用 agent 制造了大量产出,但没有能力消化它。

二、从单打独斗到智能体“战队”

2.1 纺织业的第二次革命

让我用一个历史类比来说明多智能体协作的本质。

18 世纪的英国纺织业经历过一次著名的效率瓶颈。1764 年,詹姆斯·哈格里夫斯发明了珍妮纺纱机,纺纱速度一下子提高了 8 倍。但织布机的速度没变。结果是:纱线堆积如山,织工忙得要死,整个产业链反而失衡了。

直到 1785 年,埃德蒙·卡特赖特发明了动力织布机,纺和织的速度才重新匹配。再后来,工厂制度把纺纱、织布、染色、裁剪等环节组织成流水线,每个环节由专门的工人和机器负责,整个系统才真正高效运转。

多智能体协作要解决的,本质上就是这个问题——不是让单个 agent 跑得更快,而是让多个专业化的 agent 组成一条高效的流水线。

2.2 报告怎么说

报告预测 2026 年组织会更多使用“多个智能体协同”来处理复杂度。这需要新的工程能力:任务拆解、智能体专长分工、协调协议,以及能展示多并发会话状态的开发环境。

它还给了一个具体案例:Fountain 用 Claude 的分层多智能体编排来处理招聘流程(筛选、入职、转化等环节),把“新仓配中心完整招满人”的时间从一周以上降到 72 小时以内。

2.3 分布式系统的经验

如果你是一个做过微服务架构的工程师,你会觉得这一切似曾相识。

从单体服务拆分为微服务,你获得了可伸缩性和独立部署能力,但你也引入了一整套新的复杂度:服务发现、负载均衡、分布式事务、数据一致性、链路追踪、熔断降级。这些问题不是“可能会遇到”,而是“一定会遇到”。

多智能体编排面临完全相同的挑战。每个 agent 就是一个微服务——它有独立的上下文、独立的职责、独立的输入输出。当多个 agent 并行工作时,你需要:

  • 接口契约(agent 之间如何传递信息?格式和语义是否明确?)
  • 变更隔离(一个 agent 的错误如何防止扩散到整个系统?)
  • 自动集成测试(多个 agent 的产出合在一起之后,整体是否还能工作?)
  • 冲突解决(两个 agent 修改了同一个文件怎么办?)

康威定律说:系统的架构会映射组织的沟通结构。在多智能体时代,我们需要加一句:智能体系统的架构会映射你的编排协议的质量。 协议越清晰,系统越可靠;协议越模糊,灾难越近。

三、当 Agent 能跑好几天

3.1 从工具到系统

如果说多智能体协作改变的是“空间维度”(并行),那长跑智能体改变的就是“时间维度”(持续)。

报告预测 agent 的任务跨度会从分钟 → 小时 → 天级甚至周级。在最少人类介入的情况下,构建完整的应用或系统。人类主要在关键节点提供战略监督。

它还强调,长跑 agent 必须面对“软件开发的脏活现实”:持续规划、迭代、从失败恢复、跨多会话保持状态一致。这不是一个可以在理想条件下运行的系统——它必须在充满意外的真实世界里生存。

3.2 赫伯特·西蒙的预言

诺贝尔经济学奖得主赫伯特·西蒙在 1969 年的《人工科学》中提出了一个至今仍被低估的洞察:复杂系统要在不确定的环境中存活,必须具备层级结构(hierarchy),且每一层都能在自身层面上做出有意义的决策。

长跑 agent 正在逼近这个描述。一个跑几天的 agent 不是一个简单的“脚本”——它要做规划(决定接下来该做什么)、执行(写代码、跑测试)、恢复(失败了怎么回退)、记忆(记住之前做了什么和为什么)。这本质上就是西蒙所说的“层级化的自适应系统”。

3.3 你需要一个 Agent 运行平台

当 agent 能跑几天,你面对的就不再是“写代码工具”,而是一个持续运行的生产系统。这意味着你需要像管理一个服务一样管理它:

可观测性: agent 现在在做什么?进度如何?有没有卡住?

成本控制: 这次运行消耗了多少 token?多少 API 调用?是否在预算内?

故障隔离: 一次错误决策产生的影响范围是什么?如何防止级联失败?

权限管理: agent 能访问哪些资源?能做哪些操作?谁授权的?

审计追踪: 为什么做了这个决策?依据是什么?能不能事后追溯?

我把这个系统叫做 Agent Runtime。它在概念上类似于 CI/CD 平台,但职责更广。未来的软件团队很可能会像管理 CI/CD 一样管理它——谁能启动长跑任务?额度是多少?失败重试策略是什么?产出的代码如何被分桶 review?风险变更如何自动升级给人?

3.4 被释放的可能性

当然,长跑 agent 不只带来治理挑战,也释放了巨大的可能性。

报告提到:过去不划算的项目变得可行,积累多年的技术债可能被 agent 通过 backlog 系统性消除。创业者甚至能在“几天”而非“几个月”从想法到部署。

这让人想起克莱顿·克里斯坦森在《创新者的窘境》中提出的概念:技术进步会改变“够好”的门槛。 当数码相机的质量“够好”了,胶片行业就崩塌了——不是因为数码在画质上超过了胶片,而是因为“够好”加上“便宜且方便”就够了。

长跑 agent 可能以类似的方式改变软件行业的竞争格局:它让“够好的软件”变得极其便宜和快速,从而把竞争的焦点从“谁能写出来”转移到“谁的方向更准、谁的质量更可靠、谁的迭代更快”。

四、AI 审 AI:一个必须但危险的方向

4.1 信息过载的老问题

信息过载不是新问题。赫伯特·西蒙早在 1971 年就指出:“信息的丰富意味着注意力的贫乏。”

在 agentic coding 的语境下,这个问题以一种新的形式出现:agent 产出大量代码,人类的 review 注意力成为系统瓶颈。报告预测 2026 年的解决方案是——用 AI 来 review AI 的产出。 Agent 学会“什么时候该求助”,AI 负责做第一轮质量筛查(安全漏洞、架构一致性、代码质量),只把真正需要人类判断的部分标注出来。

这个方向是对的。当上游产出增长了数倍,如果下游还完全依赖人力,系统一定会崩溃。

但它有一个结构性风险。

4.2 同源错误:一种被低估的风险

想象一下:你写了一份报告,然后让你的同班同学帮你审阅。他也是用同样的教材学的、听同一个老师的课、做的同一批习题。他很大概率会跟你犯一样的错——你们的知识盲区高度重叠。

这就是“同源错误”的本质:生成和审查如果来自同类模型、同类训练数据、同类推理模式,它们出错的方式也会高度相关。 一个模型忽略了某个边界条件,另一个来自类似训练分布的模型很可能也会忽略。

统计学里有一个相关的概念叫多重共线性——当多个预测变量高度相关时,它们看起来提供了“多个独立验证”,但实际上只提供了“一个验证的多个复制品”。AI 审 AI 如果模型同源,就面临同样的风险。

4.3 独立证据链

怎么对冲同源错误?答案是构建独立证据链。

所谓“独立”,是指验证方法在逻辑上独立于生成方法。AI 说“这段代码没问题”不算证据,测试跑过了才算。AI 说“没有安全漏洞”不算证据,扫描器确认了才算。AI 说“不会有回归”不算证据,灰度流量验证了才算。

具体来说:

  • 自动化测试: 单元测试、集成测试、端到端测试、属性测试
  • 静态分析: 类型检查、lint 规则、复杂度检查
  • 依赖审计: 安全漏洞扫描、许可证合规检查
  • 运行时验证: 监控告警、灰度发布、自动回滚

AI 可以帮你写这些证据链——事实上这是它的最佳用途之一。但最终,你必须让系统用事实约束智能体,而不是让一个智能体用“判断”约束另一个智能体。

卡尔·波普尔的科学哲学在这里是有用的:一个假说的价值不在于它被多少人(或多少个 AI)认同,而在于它经受了多少独立的否证尝试。 代码的可靠性也是如此。

五、民主化的两面

5.1 技能壁垒的坍塌

报告预测 agentic coding 会扩展到越来越多的“新表面”和“新用户”。

一方面是语言壁垒下降:COBOL、Fortran 等遗留语言也会得到 agent 支持,帮助维护旧系统。另一方面是角色壁垒下降:网络安全、运维、设计、数据等非传统开发者也能使用代码工具。更远一步,销售、市场、法务、运营等完全非技术的团队,也能用 agent 直接构建自动化方案。

Zapier 的案例很有代表性:他们推动全员使用 agent,设计团队能在客户访谈中实时做原型,组织 AI 采用率达到 89%,内部部署了 800 多个 AI agent。Anthropic 自家法务团队也用 Claude 把市场审核从 2–3 天缩短到 24 小时。

报告称之为“人人更 full-stack”:原本“会写代码/不会写代码”的边界变得可渗透。

5.2 Shadow IT 的教训

这里有一个历史教训值得注意。

2000 年代末,云计算和 SaaS 工具兴起之后,企业里出现了一个现象叫 Shadow IT——业务部门绕过 IT 部门,自己购买和使用各种云服务。销售团队用 Salesforce,市场团队用 HubSpot,财务团队用各种 SaaS 报表工具——每个部门都觉得自己解决了问题,但 IT 部门完全不知道有多少系统在运行、数据存在哪里、安全状况如何。

结果是:数据孤岛、安全漏洞、合规风险、维护成本飙升。Gartner 在 2017 年的报告中估计,Shadow IT 占企业 IT 支出的 30–40%。

Agentic coding 的“民主化”如果不加治理,会重演同样的故事——只不过更快、更猛烈。以前的 Shadow IT 只是“买了一个 SaaS”,现在的 Shadow IT 可能是“写了一个能访问客户数据库的自动化脚本”。

5.3 能力下放,风险上收

好的路径是什么?

企业提供统一平台:身份认证、权限管理、数据访问控制、审计日志、模板库、发布管道。业务团队在这个平台的护栏内自由创新。

坏的路径是:各部门各搞一套,数据权限混乱,没人负责维护,安全漏洞藏在各个角落。

分叉点在于一个原则:把能力下放,把风险上收。 能力让更多人能做事;风险必须由集中化的平台来兜底。

这也意味着工程团队的角色会发生转变——从“交付中心”变成“平台与治理中心”。它的价值不再是帮业务团队写代码,而是提供可复用的组件、安全边界、监控能力和发布管道。业务团队负责“最后一公里”;工程团队负责“高速公路 + 交规”。

六、更多产出的二阶效应

6.1 不只是“更快”,而是“更多”

报告有一个容易被忽略但非常重要的发现:生产率的提升主要来自“做了更多”,而不仅是“同样的事更快”。

具体数据是:约 27% 的 AI 辅助工作属于“否则根本不会做”的事情——扩展项目、做交互面板、探索性工作、修各种小痛点。TELUS 的团队创建了 13000 多个定制 AI 解决方案,同时工程代码交付提速 30%,节省 50 万小时以上。

27% 这个数字意味着:以前 ROI 不够高的体验优化、内部工具、质量改进、探索性实验,现在突然都值得做了。

6.2 杰文斯悖论的回声

这里有一个经济学上的经典现象值得警惕。

1865 年,英国经济学家杰文斯发现了一个反直觉的规律:蒸汽机效率越高,煤炭消耗反而越多——因为效率提升导致使用成本降低,更多场景开始使用蒸汽机,总消耗不降反升。这就是杰文斯悖论。

在 agentic coding 的语境下,杰文斯悖论的含义是:写代码的成本越低,写出来的代码越多——系统复杂度也越高。

每个单独的“顺手加个功能”都是合理的。但累积起来,你的系统会越来越庞大、越来越复杂,直到超出你的测试覆盖、监控能力和团队理解力所能支撑的水平。

6.3 产出治理

所以你需要“产出治理”——这是一个听起来很官僚但实际上至关重要的能力:

给团队设定变更预算。 不是限制产出,而是确保每一批变更都经过了充分验证。就像一个银行不会因为“反正贷款利率低”就无限放贷一样。

用可量化指标守住质量底线。 缺陷率、回滚率、变更失败率、上线 lead time、线上事故率——这些指标的作用是当“更多产出”开始损害系统质量时,及时发出警报。

定期评估系统复杂度。 系统有多少个服务?多少个依赖?新成员上手需要多长时间?这些问题的答案如果在快速恶化,说明产出速度已经超出了你的治理能力。

七、安全:把 Agent 当作一种新身份

7.1 双刃剑

报告指出 agentic coding 在安全上是“双向改变”:一方面,任何工程师都能借助 AI 做安全审查和加固;另一方面,攻击者也能用同样的能力规模化攻击。

这并不新鲜——每一次技术民主化都伴随着“武器对等化”。火药让城堡不再安全,印刷术让信息垄断不再可能,互联网让大规模信息操纵变得廉价。agentic coding 会让代码级的攻击和防御都变得更快、更自动化。

7.2 Agent 是一种新的“身份主体”

但报告没有点透的一层是:大多数组织仍然把 agent 当作“更聪明的 IDE 插件”。

一个 coding agent 不只是帮你补全代码。它能调用工具、读写文件系统、触达数据库、触发部署流水线。它是一个有自主行为能力的“身份主体”(principal),就像一个新入职的员工一样——它需要有自己的身份、权限、审计记录和责任边界。

在计算机安全领域,有一个经典原则叫最小权限原则(Principle of Least Privilege),由 Jerome Saltzer 和 Michael Schroeder 在 1975 年提出:每一个主体只应该被赋予完成其任务所需的最小权限集。

把这个原则应用到 agent 上,你需要回答一系列问题:

  • 这个 agent 能访问哪些仓库?哪些环境?哪些数据?
  • 密钥和敏感信息如何隔离?
  • 它能不能直接部署到生产?如果能,门禁和回滚如何设计?
  • 发生错误或滥用时,责任归属和追踪怎么做?

如果你的安全架构里没有“agent”这个角色类型,你就是在用 2020 年的安全模型应对 2026 年的威胁面。

八、把一切收束:一个三层体系

8.1 报告的四个优先级

报告最后把建议压缩成 4 个优先方向:

  1. 掌握多智能体协作以处理单智能体无法覆盖的复杂度
  2. 用 AI 自动化 review 来扩展监督,把人类注意力聚焦在关键处
  3. 把 agentic coding 扩展到工程以外,赋能跨部门领域专家
  4. 从最早期就把安全架构嵌入 agent 系统设计

这四个方向都对。但它们需要一个共同的底座才能落地。

8.2 Agentic Engineering OS

如果要把这份报告翻译成一个可执行的组织框架,我会这样描述它:

意图层(Intent Layer): 这是整个系统的输入端。PRD、技术方案、验收标准、风险边界——尽量结构化、可复用、可被机器解析。这一层的质量直接决定了下游所有产出的质量。垃圾进垃圾出——这条朴素的工程真理在 agent 时代被放大了一百倍,因为 agent 会以极高的效率把你模糊的需求变成大量模糊的代码。

执行层(Execution Layer): 这是 agent 的主战场。多智能体编排、工具调用、长跑任务管理。这一层的核心指标是产出的速度和覆盖面。报告中的大部分趋势——多智能体、长跑 agent、非工程人群的扩展——都发生在这一层。

保证层(Assurance Layer): 这是整个系统的安全网。自动化测试、静态分析、监控告警、审计追踪、安全门禁、灰度发布、回滚机制、事后复盘。这一层的作用是用事实约束执行层的产出——不是让人相信 agent 做得对,而是让系统证明 agent 做得对。

三层之间的关系是:意图层决定方向,执行层负责产出,保证层确保可信。 三层都强的团队,才能真正吃到 agentic coding 的红利——周期压缩、产出放大、跨部门扩散与安全内建。

8.3 一个类比

如果你觉得这个框架太抽象,可以把它想象成一个现代化的自动驾驶系统。

意图层是导航系统——你输入目的地,它规划路线。路线越精确,抵达的概率越高。

执行层是发动机和传动系统——它负责让车跑起来。多智能体就像多缸发动机,并行出力。

保证层是刹车系统、安全气囊和车道保持——它们不创造速度,但它们决定了你能安全地使用多大的速度。

没有刹车系统的跑车,油门越大,死得越快。 这就是为什么“保证层”不是锦上添花,而是整个体系的生死线。

结语:什么东西变贵了

每一次技术变革都会改变“什么东西贵、什么东西便宜”的相对价格。

蒸汽机让体力变便宜,让能源管理变贵。印刷术让信息传播变便宜,让注意力变贵。互联网让分发变便宜,让信任变贵。

Agentic coding 让代码产出变便宜了。那什么东西变贵了?

正确的方向变贵了——因为 agent 会以极高的效率执行你的意图,如果意图是错的,你会极其高效地制造垃圾。

可验证的规格变贵了——因为模糊的需求会被 agent 变成大量模糊的代码,而你没有足够的人力去逐一检查。

可扩展的质量控制变贵了——因为产出量增长了数倍,但你的测试、监控和审计能力不会自动跟上。

可审计的安全边界变贵了——因为 agent 不再是被动工具,而是能主动行动的身份主体。

总结成一句话:代码不再稀缺之后,“可靠的变更”变成了真正的稀缺品。

这份报告给出的 8 个趋势,归根到底都在回答同一个问题:在代码不再稀缺的世界里,如何系统性地生产“可靠的变更”?

答案不是更强的模型——模型会继续进步,但那是 AI 公司的事。答案是更好的协作系统——把意图说清楚、让 agent 去执行、让保证层来兜底、让人类做最终裁决。

谁先把这套系统跑起来,谁就在新规则下领先。这不是预言,这是工程。

当AI成为你的同事:Anthropic内部报告揭示的新工程范式(万维钢版)

发表于 2026/02/24 | 分类于 AI专题

当 AI 成为你的同事:Anthropic 内部报告揭示的新工程范式

一、一个反直觉的发现

Anthropic 最近发布了一份报告,叫《How Anthropic teams use Claude Code》。乍一看,这好像是一家 AI 公司在展示自家产品有多好用。但仔细读完,我发现它真正讲的是一件更有趣的事——

软件工程正在从一门“确定性手艺”变成一种“概率性博弈”。

我们过去写代码的逻辑很简单:想清楚,写下来,测一测,上线。每一步都是确定的。但当 AI 深度介入开发流程之后,游戏规则变了。Anthropic 的 RL(强化学习)工程团队在报告里坦诚地说:让 Claude Code 独立完成一个小到中等的 PR,“一次就成”的概率大约只有三分之一。

三分之一。这个数字非常关键。

它意味着你不能像指挥一个靠谱工程师那样指挥 AI——“去把这个功能做了”,然后等着交付。你得换一种完全不同的思路。

Anthropic 自己的 10 个团队,从数据基础设施到法务,从安全工程到增长营销,各自独立地摸索出了一套新方法。把这些方法叠在一起看,你会发现它们指向同一个底层规律。

这篇文章就来讲讲这个规律。


二、老虎机式工作法

Anthropic 的数据科学团队发明了一个绝妙的说法,叫“老虎机式工作法”(slot machine approach)。

做法很简单:你先保存好当前进度(checkpoint),然后让 Claude Code 自由发挥 30 分钟——写代码、跑测试、自我修正。30 分钟后你回来一看:如果结果不错,恭喜你赚到了;如果一团糟,你直接回滚到 checkpoint,重新来一次。

这听起来荒唐。传统工程思维里,你遇到错误应该去修它、去 debug、去逐步逼近正确答案。回滚重来?那不是浪费前面所有的工作吗?

但这恰恰是概率式系统的反直觉真相:当生成器有随机性时,重新开始有时比逐步修补更便宜。

想象你在走迷宫。如果你能看到迷宫全貌,那当然应该逐步修正路线。但如果你蒙着眼睛走,每一步都有随机性,那么当你发现走到死胡同时,最聪明的做法不是原路返回再试一条岔路——而是直接传送回起点,重新走。因为 AI 每次生成的路径不一样,“重新走”有真实概率走出一条更好的路。

RL 工程团队用的也是同一套策略:先让 Claude 一次性跑完整个任务(one-shot),成了就赚到;没成就切换到“协作引导模式”,人在旁边一步一步带。他们甚至把 Claude 常犯的错误记录下来写进文档(Claude.md),比如“不要乱 cd 目录”、“pytest 路径要写对”——下次它就不会犯同样的错了。

这整套东西——checkpoint、回滚、重新尝试、记录错误——不是什么小技巧。它是一种新的工程范式。


三、概率式协作的三根支柱

当我把 10 个团队的做法叠在一起看时,我发现它们虽然各自独立探索,却不约而同地搭建了同一套基础设施。我把它概括成三根支柱:上下文、控制、反馈。

第一根:上下文。 你得告诉 AI 它在哪、该怎么做、有哪些约束。

数据基础设施团队写了一份详细的 Claude.md,里面包含数据管道的依赖关系、上游数据源、dashboard 的对应关系。新人入职时,不用再拉着老员工讲半天——让 Claude 读 Claude.md 就行了。

更妙的是,他们让每次 Claude 工作 session 结束时自动生成总结,然后把总结回写到 Claude.md 里。这意味着这份文档会越来越完善——AI 在使用过程中不断改进自己的“使用说明书”。

设计团队也写了自定义 memory 文件,但内容不一样:“我是设计师,不是工程师,请用小步骤解释每一步改动。”

第二根:控制。 你得确保 AI 搞砸的时候你能回到安全地带。

产品研发团队的规矩是:永远保持干净的 git 状态,频繁做 checkpoint。这不是代码洁癖,这是生存策略。当你让一个概率性系统自由发挥时,“可以随时撤销”就是你最重要的安全网。

数据科学的老虎机工作法也是同一个思路:先 commit,再放手。

第三根:反馈。 你得让 AI 自己知道它做得对不对。

产品研发团队有一个核心实践叫“自给自足循环”(self-sufficient loop):让 Claude 写完代码后自动跑 build、test、lint。如果测试挂了,它自己修;lint 有问题,它自己改。你不需要一行一行盯着看——让系统自己告诉它哪里错了。

这三根支柱缺一不可。

没有上下文,AI 不知道该做什么,你就会反复纠错。没有控制,你不敢放手,AI 只能做最简单的活。没有反馈,你只能靠人肉 review 来判断质量,那 AI 的速度优势就打了折扣。

很多团队觉得“AI 不够聪明”,其实不是。你缺的不是更强的模型,而是这三根支柱中的某一根。


四、风险分层:一种新的工程治理模型

产品研发团队给出了一个特别清晰的分类法:

  • 外围功能、原型、批量替换、测试生成 → 异步自治:开 auto-accept,让 Claude 自己写、自己跑、自己改,你事后来 review。
  • 核心业务逻辑、关键修复、安全相关 → 同步监督:你在旁边实时盯着,prompt 要非常具体,随时纠偏。

他们甚至有一个真实案例:Claude Code 的 Vim mode 功能,最终实现中大约 70% 来自 Claude 的自治工作。但这 70% 全部是在“外围功能”范畴内。核心逻辑仍然是人写的。

这不是技巧问题,这是治理模型。你用“监督强度”来对冲不确定性——风险越高,人介入越深;风险越低,AI 自主权越大。

安全工程团队更是把这个思路用到了极致。他们让 Claude Code 审查 Terraform plan——“这个变更会做什么?有没有后悔风险?”——安全审批的速度一下子快了很多,研发团队不用再排队等安全团队一行一行 review。但注意:Claude 给出的是“分析”,最终 approve 仍然是人按的按钮。

这就是风险分层的精髓:不是不信任 AI,而是按风险等级分配信任。


五、被严重低估的三件事

读完 10 个团队的实践,有三件事被严重低估了。

第一件:截图的价值。

数据基础设施团队排查 Kubernetes 问题时,直接把云控制台的截图喂给 Claude Code。设计团队和法务团队也大量使用“截图→反馈→迭代”的循环。

这件事被低估了。对于很多“界面/状态/配置”类问题,截图比文字描述快 10 倍,也准 10 倍。你不需要费劲把一个 dashboard 的状态用文字翻译出来——贴张图就行了。视觉输入让“人与 AI 对齐”的成本大幅降低。

第二件:组织记忆的工程化。

数据基础设施把 session 总结回写文档。安全团队把散落在各处的知识压缩成 runbook。增长营销团队甚至搭了一套“实验记忆系统”——上一轮广告测试的结果会自动传递给下一轮生成,形成自我改进的闭环。

这些做法共同指向一个结论:把组织经验写成机器可消费的形式,模型才会越用越好,团队才会越用越一致。 否则 AI 永远只是“个人的随机助手”,无法规模化。

第三件:非技术岗位的“跨界”。

增长营销团队只有一个人。这个人不是工程师。但他用 Claude Code 写了 Google Ads 自动化脚本、Figma 批量变体插件、Meta Ads 分析工具。文案制作从 2 小时降到 15 分钟,创意产出提升 10 倍,一个人像一个小团队一样运作。

法务团队更厉害——一位律师用 Claude Code 在一小时内做出了一个预测文本加语音输出的辅助沟通应用,帮助有语言障碍的家人。

产品设计师也不再只做“视觉微调”了。他们开始直接修改状态管理逻辑、梳理 error state、全站替换合规措辞——这些过去都要找工程师才能做的事。

这意味着 Claude Code 在组织里扮演的角色,不是“更强的 IDE”,而是一个翻译层——它把不同角色的意图(业务的、设计的、合规的)翻译成可执行的代码变更。这会改变“谁能做什么”的边界。


六、真正贵的是“上下文税”

API 团队说了一句很精辟的话:Claude Code 最大的价值不是“帮我写代码更快”,而是“帮我省掉了把代码片段搬到另一个窗口、再解释半天背景”的那段时间。

这句话点出了一个被忽视的真相:在大组织里,真正昂贵的不是写代码的速度,而是“上下文税”。

什么是上下文税?就是你为了理解一件事所付出的所有隐性成本——

  • 切换到一个陌生的子系统,要读一个下午的代码才能开始动手
  • 轮岗到新团队,要好几周才能有效贡献
  • 每次提 bug 要把前因后果解释一遍
  • 跨团队协作时反复对齐上下文

Inference 团队说,过去理解一个 ML 概念要 Google 搜索加读文档一小时,现在问 Claude 只要 10-20 分钟,研究时间降低了 80%。安全工程师说,过去手动扫代码定位问题要 10-15 分钟,现在 5 分钟搞定。

这些看起来是“个人效率提升”,但放到组织层面就不一样了:当上下文税降低,跨界协作的摩擦也跟着降低。 新人上手更快,轮岗更顺滑,跨团队求助减少——这些复利效应远比“单次写代码快 20%”更有价值。


七、一种张力

法务团队在报告最后说了一段意味深长的话。他们一方面鼓励大家分享不完美的原型——“因为原型会激发跨部门创新”;另一方面又警告说,MCP 深度集成的安全影响不容小觑,“合规工具要跟上能力扩张的速度”。

这不是一个孤立的担忧。它指出了未来几年很多组织都会遇到的真实矛盾:

当 AI 把“做事”的门槛降到足够低,每个部门都能直接连到系统和数据。这是创新的巨大加速器——也是风险扩散的巨大加速器。

过去,“不是工程师所以碰不了系统”本身就是一道天然防火墙。现在这道墙正在消失。数据基础设施团队建议敏感数据场景用 MCP server 代替直接 CLI,以便做权限和审计控制。法务强调要给非技术用户设定“更严格的安全默认值”。

能力越强,治理就越不能停留在“提醒大家小心”。它必须工程化——最小权限、审计日志、隔离环境、审批门槛。

这是 AI 民主化的代价。也是不得不付的代价。


八、这份报告真正在说什么

让我把这篇文章的核心论点串起来——

Anthropic 10 个团队的实践,表面上是“我们怎么用 Claude Code 的”,底层其实是一个范式转移的缩影:

  1. 软件工程从确定性走向概率性。 你不能指望 AI 每次都对,但你可以设计一个“从不确定性中持续获利”的流程——checkpoint、回滚、重试。这和传统工程直觉相反,但在概率系统里经常成立。

  2. 生产力提升的杠杆点在于“三闭环”(上下文、控制、反馈),不在于模型本身。很多人抱怨“AI 不够好”,其实是缺了其中一环。

  3. 组织效率的核心瓶颈在于上下文税,不在于代码产出速度。 AI 真正值钱的地方,是把跨角色、跨项目、跨学科的摩擦成本压低。

  4. AI 正在把“谁能做什么”的边界重新画一遍。 非技术岗位能写代码,设计师能改状态管理,一个人能像一个团队。但这意味着权限、审计和安全机制必须同步升级。

  5. 组织记忆必须工程化。 Claude.md、runbook、实验日志——把组织经验变成机器可消费的形式,是 AI 工具从“个人提效”迈向“团队规模化”的关键一步。

这份报告最大的价值不在于展示了哪些酷项目。它展示的是一种新的协作方式:把 AI 当成一个概率式的合作伙伴,用工程手段(而不是美好愿望)把它的不确定性变成可控的收益。

这才是“AI 改变工作”的真正意思。

当AI成为你的同事:Anthropic内部报告揭示的新工程范式(Stratechery版)

发表于 2026/02/24 | 分类于 AI专题

Claude Code 与软件工程的范式转移:Anthropic 内部实践报告深度分析

报告背景

上周 Anthropic 发布了一份内部报告《How Anthropic teams use Claude Code》。与通常的产品案例研究不同,这份报告罕见地展示了一家 AI 公司内部 10 个不同职能团队——从数据基础设施到法务——如何在日常工作中真实使用自家的 AI 编程工具。

这种内部实践的透明度本身就值得关注。但我认为这份报告更大的价值在于,它无意中揭示了软件工程——以及更广义的知识工作——正在经历的一次底层范式转移。

核心论点

我的核心论点是:Claude Code 之所以在 Anthropic 内部产生显著的生产力提升,不是因为模型本身足够强大,而是因为这些团队独立发展出了一套适配“概率式系统”的工程方法论。 这套方法论才是这份报告最有迁移价值的部分。

让我从三个维度来论证这个观点。


维度一:从确定性到概率性——工程方法论的根本变化

传统软件工程建立在一个基本假设之上:代码是确定性的。你写了什么,它就执行什么。debug 的逻辑也很清晰——追踪执行路径,找到偏差点,修正它。

AI 编程工具打破了这个假设。

报告中最坦诚的数据来自 RL 工程团队:让 Claude Code 独立完成一个小到中等的 Pull Request,首次成功率大约只有三分之一。这不是一个令人沮丧的数据——这是一个定义性的数据。它告诉我们 AI 辅助编程的本质不是“自动化”,而是“概率性生成”。

面对这个现实,Anthropic 的团队发展出了两种互补的策略。

策略一:老虎机式工作法(Slot Machine Approach)

数据科学团队的做法最直接:先提交当前进度,让 Claude Code 自由运行 30 分钟处理合并冲突或半复杂的重构。如果结果可用,直接采纳;如果不可用,回滚到上一个 checkpoint 重新开始。

这种方法的核心洞察是:在概率式系统中,“重新采样”有时比“逐步修正”的预期回报更高。 这和传统工程中“遇到 bug 就 debug”的直觉完全相反,但在数学上是站得住脚的。

RL 工程团队的“try & rollback”策略本质上是同一思路的变体:先一次性(one-shot)让 Claude 跑完整个任务,成功就赚到;失败就切换到更精细的协作模式。

策略二:风险分层的监督模型

产品研发团队的做法更体系化。他们明确将任务分为两类:

  • 低风险任务(原型、外围功能、测试生成、格式化):开启 auto-accept 模式,让 Claude 自主运行“写代码→跑测试→自我修正”的循环。Vim mode 功能约 70% 的最终实现来自这种自治模式。
  • 高风险任务(核心业务逻辑、安全相关修改):同步监督,具体的 prompt,实时纠偏。

这不是个人偏好的问题,这是一套工程治理模型:用监督强度来对冲不确定性,用任务分类来管理风险暴露面。


维度二:瓶颈转移——从“代码产出速度”到“上下文税”

如果说维度一关注的是“怎么用”,维度二关注的是“用在哪里最值”。

报告中一个反复出现的主题是:Claude Code 最大的价值往往不在于“写代码更快”,而在于降低上下文获取的成本。

API 团队的描述最典型:任何任务的第一步是问 Claude “我该看哪些文件、从哪里下手”,然后在不熟悉的子系统里独立 debug,而不是去找同事求助。他们特别提到了一个细节——Claude Code 省掉了把代码片段搬到另一个聊天窗口再解释背景的“上下文搬运成本”。

Inference 团队给出了量化数据:过去理解一个不熟悉的 ML 概念需要 Google 搜索加阅读文档约一小时,现在只需要 10-20 分钟,研究时间降低了 80%。安全工程团队的数据是:手动扫代码定位问题从 10-15 分钟缩短到 5 分钟左右。

这些数字在个体层面看起来是效率优化,但在组织层面它们指向了一个更深层的变化。

组织效率的真正瓶颈

在一个成熟的软件组织里,真正昂贵的不是“写代码”,而是围绕代码的一切协调成本:

  • 新人入职数周才能有效贡献(Inference 团队和安全工程团队提到的 onboarding 加速)
  • 轮岗到新项目需要大量代码考古(API 团队的经验)
  • 安全审批成为研发的等待瓶颈(安全团队对 Terraform plan 的审查加速)
  • 跨团队协作需要反复对齐上下文(数据基础设施团队让非工程同事自助运行数据流程)

Claude Code 在这些场景里不是在“替你写代码”,而是在压缩闭环——减少从“提出问题”到“得到可验证结果”之间的等待、搬运和沟通成本。

如果我们要重新计算 AI 编程工具的 ROI,正确的口径可能不是“每个工程师每天多写了多少行代码”,而是“每个协作闭环减少了多少等待时间和上下文搬运”。


维度三:边界重塑——AI 作为“跨角色的翻译层”

报告中最出人意料的章节不是来自工程团队,而是来自增长营销、产品设计和法务。

增长营销:一个非工程师的“团队化”

增长营销团队只有一个人,这个人不是工程师。但他用 Claude Code:

  • 构建了 Google Ads 自动化系统:处理包含数百条广告和指标的 CSV,用两个子代理分别负责标题(30 字符限制)和描述(90 字符限制),几分钟生成数百个新广告变体
  • 开发了 Figma 插件:程序化生成最多 100 个创意变体,单次操作的时间从小时级压缩到秒级,产出提升 10 倍
  • 通过 MCP server 连接 Meta Ads API 做投放分析

文案制作从 2 小时降到 15 分钟。一个人的产出像一个小团队。

产品设计:从“交付静态稿”到“交付可运行原型”

设计团队不再只做视觉微调。他们直接用 Claude Code 修改前端状态管理逻辑、梳理 error state 和边界情况,甚至完成了一次全站合规措辞替换——这项工作原本需要设计、工程和法务三方协调一周,现在压缩到两次 30 分钟的通话。

设计师在 80% 的工作时间里同时开着 Figma 和 Claude Code。报告中有一句话精确捕捉了这种转变的双重性:对有开发经验的人,Claude Code 是“增强版工作流”;对没有开发经验的人,它是“我居然能当开发者”的全新能力。

法务:一小时做出辅助沟通应用

一位律师用 Claude Code 在一小时内构建了一个预测文本加语音输出的辅助沟通应用,用于帮助有语言障碍的家人。法务团队还做了“phone tree”原型(帮同事找到对口律师)和 G Suite 自动化(周更跟踪、法务 review 状态管理)。

这意味着什么

这三个团队的案例共同指向一个结论:Claude Code 在组织中扮演的角色不是“更强大的 IDE”,而是一个跨角色的翻译层——它把业务意图、设计意图、合规意图翻译成可执行的代码变更。

这是一个具有深远影响的变化。

在传统组织架构中,“能写代码”是一条清晰的能力边界。业务部门想要自动化,得排队等工程资源。设计师想要调整交互逻辑,得写 ticket 给开发。法务想要一个内部工具,得走立项流程。

当 AI 把这条边界模糊化之后,“谁能做什么”的定义被重写了。这带来了两个并行的后果:

正面后果是创新的加速。 法务团队明确鼓励“分享不完美的原型”,因为原型会激发跨部门创新。增长营销从“执行者”转向“策略制定者和自动化建设者”。设计师在系统约束中做取舍的能力显著增强。

负面后果是风险面的扩大。 当非技术部门能直接连接到系统和数据时,过去“不是工程师所以碰不了系统”这道天然防火墙就消失了。法务团队明确提出了对 MCP 深度集成的安全顾虑,数据基础设施团队建议敏感数据场景使用 MCP server 以实现权限控制和审计追踪。

这是 AI 工具能否在企业中规模化采用的决定性因素:治理体系能否跟上能力的扩张速度。


隐藏在报告中的基础设施:组织记忆的工程化

除了上述三个维度,报告中还有一条暗线值得专门讨论:组织记忆的工程化。

多个团队独立发展出了“把组织经验写成机器可消费形式”的实践:

  • 数据基础设施团队:每次 Claude 工作 session 结束时生成总结,回写到 Claude.md 文档,形成持续完善的运维知识库
  • 安全工程团队:把散落在多处的文档压缩成结构化的 markdown runbook,用于真实故障排查
  • 增长营销团队:搭建实验记忆系统,上一轮广告测试的假设和结果自动传递给下一轮,形成自我改进的测试框架
  • RL 工程团队:把 Claude 常犯的错误模式记录进 Claude.md(如路径问题、命令习惯),降低重复出错率

这些实践的共同逻辑是:AI 工具的质量不仅取决于模型能力,还取决于可供消费的组织知识的结构化程度。 写得更好的 Claude.md 直接等于更稳定的输出。

安全工程团队的一个数据点佐证了这一点:他们在 monorepo 中实现了 50% 的自定义 slash command。这意味着他们已经把“经常做的事”封装成了可复用的资产,从个人效率升级为团队能力。

这是 AI 工具从“个人提效”迈向“组织规模化”的关键一步。也是最容易被忽略的一步。


局限性:必须正视的现实

任何严肃的分析都不应回避局限性。报告中至少暴露了四个需要注意的问题:

  1. 可靠性的天花板。 RL 工程团队的“三分之一首次成功率”是真实数据。这意味着对 AI 编程工具的合理预期不是“自动交付”,而是“加速迭代”。任何假设 AI 能独立完成关键任务的工作流设计都是危险的。

  2. 复杂性偏好。 数据科学团队特别提到,模型有“默认走复杂方案”的倾向。你需要主动要求更简单的实现方式,否则会得到过度工程化的代码。

  3. 输出质量的不一致。 RL 工程团队指出 Claude 会自动添加注释,但位置和措辞有时很奇怪,代码组织结构也可能不符合团队规范。这意味着 code review 仍然是不可省略的环节。

  4. 安全与合规风险。 当 AI 工具能直接操作生产系统时,最小权限原则、审计日志、变更审批这些治理机制不是可选项,而是必选项。


对企业的启示:分阶段采用框架

基于报告中 10 个团队的经验,我认为企业采用 AI 编程工具的最优路径不是“全面铺开”,而是分阶段推进:

第一阶段:知识导航与测试补全。 风险最低、见效最快。让 AI 回答“某功能在哪里”、“这段代码做了什么”、“帮我补一下这个函数的边界测试”。目标是在团队内建立基本信任。

第二阶段:三闭环基础设施。 在放手让 AI 做更多事之前,先搭建上下文(Claude.md / memory 文件)、控制(干净分支 + 高频 checkpoint)、反馈(自动化 build / test / lint)三套机制。这决定了 AI 工具能否安全地“跑更久”。

第三阶段:能力资产化。 把高频流程封装成 slash command、GitHub Actions 或 MCP 集成。这是从个人效率升级到团队效率的关键跃迁。

第四阶段:非技术角色接入。 在完善权限、审计和安全默认值之后,让设计、营销、法务等非技术角色进入可控的 AI 辅助工作流。先解决环境搭建和权限配置的门槛,再强制小步修改和审核机制。


结论

Anthropic 这份报告最有价值的地方不在于“他们用 Claude Code 做了什么酷项目”,而在于它展示了一套完整的方法论——如何在一个概率式系统不够可靠的前提下,通过工程手段(checkpoint、反馈闭环、风险分层、组织记忆)将其转化为可控的、可规模化的生产力工具。

更重要的是,它暗示了软件工程和知识工作的一次深层结构变化:

  • 工程方法论从“确定性流程”转向“概率式流程”
  • 生产力瓶颈从“代码产出速度”转向“上下文获取成本”
  • 组织能力边界从“职能分工”转向“AI 辅助的能力弹性”
  • 治理挑战从“管好工程师”转向“管好每个人的 AI 权限”

对于正在评估 AI 编程工具的技术领导者来说,这份报告的真正信息不是“赶紧用”——而是“想清楚怎么用”。流程闭环、能力资产化和风险分层,比模型选择本身更决定最终的投入产出比。

AI时代,我到底在积累什么?

发表于 2026/02/23 | 分类于 AI专题

本文源自我与 ChatGPT 的一次深度讨论,后经 Claude Opus 4.6 整理成文,使用的是我自己的写作风格。

1

最近我花了很多时间跟AI协作。写代码、写文档、做产品、搭工作流。做着做着,我发现了一个奇怪的现象:我积累下来最有价值的东西,好像不是代码。

代码当然也在写。但真正让我觉得有价值的,是那些模板、流程、规范——需求文档怎么写、测试怎么组织、一个想法怎么变成产品。这些东西,说它是知识吧,又不太像。它不是”巴黎是法国首都”那种可以查到的事实,而是一种经验的结构化表达,是在一次次实践中提炼出来的东西。

它也不是纯粹的经验。普通经验是模糊的、个人的、讲不清楚的。但我做的事情,是把经验压缩成模板和流程,让它可以被复用,甚至可以被AI理解和执行。当我做一个提醒喝水的App,我其实在回答一系列具体问题:什么频率合理?什么语言不会引起反感?什么节奏更容易形成习惯?这已经是行为科学、产品设计、认知心理学的交叉地带了。

如果一定要给这类东西起个名字,我倾向于叫它:结构化认知资产。

名字起好了,但一个更根本的问题随之而来:它真的算”资产”吗?还是只是一堆听起来很专业的文档?

2

判断一样东西算不算资产,我用一个朴素的标准:能不能在未来持续带来收益,并且可以被持有、迭代、转移。

我用一个朴素的标准来判断:能不能在未来持续带来收益,并且可以被持有、迭代、转移。

按这个标准,它完全是资产。它可以复用——同一套结构能反复用在不同项目上。它可以迁移——换了团队、换了领域,我仍然能带走。它可以增值——用得越多,迭代得越完善,具备复利效应。它也可以衡量——交付速度、缺陷率、返工率,都看得见变化。

当然,它也有折旧。技术迭代会让模板过时,缺少验证机制会让文档变成精致的自我感动。所以它是资产,但需要持续维护。不更新、不验证,就会折旧成负债。

一个结构,如果能被你反复使用,能被AI理解,能让效率指数级提升,那它就是一种新的资本形态。不是金融资本,而是认知资本。

认知资本的概念听起来很美。但这里面有一个陷阱:谁都可以写模板,谁都可以搭流程,凭什么你的就比别人的值钱?换句话说,是什么决定了认知资产的质量?

3

答案是品位。

我给自己定了一条规矩:只做自己常用的App。自己不用的,不开发。这不是任性,而是在主动筛选——只有我愿意天天用、愿意长期打磨的东西,才值得投入时间。

在AI时代,”可实现的功能”正在迅速变得廉价。AI写代码越来越快,写文档越来越好。那么,真正稀缺的是什么?是判断。该做什么?什么算好?什么值得反复打磨?

我有胆囊结石和肾结石的小毛病,多喝水有助于改善。于是我做了一款提醒喝水的App,不是为了上架,不是为了给别人用,就是给自己用的。只有这样,我才是自己最严苛的用户,才能获得最真实的反馈。

我做喝水提醒、做冥想、做减少久坐的App,看起来是好几个产品,但它们共享同一套内核:我的交互风格、提醒语气、频率节奏,还有”不打扰”的边界感。这不是几个功能的堆砌,这是一个人品位的外化。

品位不是”我觉得好看”这种模糊的感觉,它可以被写成明确的原则。比如:不做连续打卡来羞辱用户。提醒要温和,不要控制。追求低摩擦、低噪音、可退出。App存在的目的是让用户最终不需要它。当品位能被写成规则,它就从感觉变成了可传承的资产。

品位能写成规则,这很好。但规则不是凭空冒出来的。没有人天生就知道”提醒频率多少合适”或者”什么语气不会让人反感”。这些判断需要一种特殊的土壤才能长出来。

4

这个土壤就是:用。自己做,自己用,反馈极快。

我用Codex帮我复刻排行榜前列的App,速度非常快。选中喜欢的之后,我自然就会追问:为什么它能排在前面?为什么会受欢迎?它的设计逻辑是什么?好奇心就是这样被点燃的。好奇心一来,学习就自然发生了。我不需要逼自己学,我是想知道。

更重要的是,自用产品天然形成了一个正反馈回路。App让生活变好了——喝水真的更规律了,身体确实更舒服了——我就更愿意继续用、继续改。改的过程提升了工程能力和产品判断力,我就更有本事把它做得更好。做得更好又带来更多反馈,循环自我加速。

很多人学东西学不下去,是因为只有”看书听课”这一层。没有”动手做”,没有”亲自用”。三层齐了,才会越做越上头。生活改善和技术成长同时发生,一个小App,变成了一个不断自我增强的飞轮。

品位就是在这个飞轮里磨出来的。每转一圈,判断力就更准一点,标准就更清晰一点,资产就更硬一点。

到这里,我们已经知道了三件事:有一种东西叫结构化认知资产,它具备复利效应;品位决定了这些资产的质量;而品位本身来自”自己做、自己用”的飞轮。但这就引出了一个更大的问题:当AI越来越强,人在这个系统里到底扮演什么角色?

5

回头看,我觉得答案藏在前面讲的这些事情里。我做模板,是在定义结构。我定规矩,是在设定标准。我只做自己用的App,是在决定什么值得做。写文章是把经验变成文字,做模板是把经验变成结构,做App是把经验变成产品。而品位,是贯穿其中的那条线。

AI擅长执行,人擅长定义。我沉淀工作流、积累助推模式、打磨品位原则,本质上是在构建”可被AI放大的结构”。别人也有AI,但没有我的结构、我的标准、我的系统。这种能力不怕AI变强,因为竞争的不是”谁写代码更快”,而是”谁判断得更准,迭代得更稳”。

我喜欢做这件事。不是因为它赚钱,不是因为它时髦。而是因为我自己需要它,我每天都在用它,它让生活确实变好了,能力也确实变强了。

也许在AI时代,人最该积累的不是代码,不是知识点,而是品位——你对”什么是好”的判断力。品位需要亲自使用、亲自感受、亲自打磨。它不能被AI替代,不能被快速复制。

这是最慢的资产,也是最硬的资产。

那个带着A3大图敲门的瑞典少年

发表于 2026/02/20 | 分类于 AI专题

风格参考:Malcolm Gladwell(《引爆点》《异类》作者)—— 场景开头,层层剥洋葱,用悬念驱动叙事,最后揭示反直觉的结论。

那扇门

斯德哥尔摩,2019年冬天。

一个18岁的年轻人站在一家电商公司的前台,手里夹着一个文件夹。他没有预约,没有名片,没有大学学历——事实上,他连高中都没读完。前台问他找谁,他说想见电商业务的负责人,或者CEO也行。

前台的表情可以想象。在瑞典的商业文化里,陌生人不打招呼就上门拜访,约等于在地铁上跟陌生人搭话——不违法,但非常不寻常。更何况这个人看起来明显还未成年。

但这个年轻人打开了文件夹。里面是一张A3大小的对比图:左边是这家公司网站目前的商品推荐结果,右边是他用自己训练的模型生成的推荐结果。两列截图并排,差异肉眼可见——右边的推荐更精准,商品关联性更高,像是真的读懂了用户在想什么。

负责人出来了。看完对比图,第一反应是震惊,第二个问题是”这个怎么上线”。

年轻人当场从口袋里掏出一段写好的脚本代码,打开对方网站的浏览器控制台,粘贴,执行。推荐结果实时替换,页面上还自动跑起了A/B测试模块,跟踪两套方案的转化率对比。负责人盯着屏幕看了十几秒,抬头说:”我们谈谈价格。”

这一切发生在第一次见面的前十五分钟里。

这个年轻人叫Gabriel Petersson。五年之后,他加入了OpenAI,成为Sora团队的研究工程师。

但在这个故事的起点,他只是一个辍学生,连”机器学习”三个字到底是什么意思都说不太清楚。

那通电话

要理解Gabriel后来做的一切,你需要先回到更早的一个时刻。

那是一个普通的周末下午。Gabriel还在瑞典读高中,编程经验约等于零。他的表兄打来电话,说自己有一个创业想法——做一个电商推荐系统,卖给瑞典的在线零售商。他需要Gabriel马上过来斯德哥尔摩帮忙。

Gabriel说,今晚有个派对。

表兄说,现在就来。

他买了下一班车票。之后再也没有回到学校。

用Gabriel自己的话说,辍学并不是什么深思熟虑的人生决策。没有深夜辗转的权衡利弊,没有跟父母长谈后含泪告别,也没有”我要走一条不同的路”这种宣言式的顿悟。它更像是被一个足够紧迫的机会推着走——走着走着,就回不去了。

到了斯德哥尔摩之后,他面对的第一个问题不是”怎么写代码”,而是”怎么把东西卖出去”。冷邮件没人回——一个没有公司背景、没有客户案例、甚至没有正式网站的两人团队,发出去的邮件大概率被当成垃圾邮件。电话打了也很难让人信任一个没有技术背景的18岁少年。你可以想象那个场景:电话接通,对方问”你们公司在哪?团队多大?有什么成功案例?”,他一个都答不上来。

于是他想到了上门推销,也就是你在开头读到的那个场景。

他后来承认,这种做法留下了很多技术债——为了快速获客,他们几乎不考虑代码的可维护性和系统的可扩展性。但这段经历的真正价值不在于技术,而在于一个心理上的翻转:当你必须对结果负责的时候,你学东西的速度会快到自己都不敢相信。

但这里有一个问题:一个看不懂Andrew Ng机器学习课程、以为自己”太笨了”的高中辍学生,到底是怎么学会训练推荐模型、写爬虫、做A/B测试的?

答案藏在一个大多数人忽略的地方。

那些很烂的游戏

在成为那个带着A3大图上门推销的人之前,Gabriel的技术学习史可以用一个词概括:挫败。

表兄最初教他Java,两个人一起写了个回合制小游戏。Gabriel在访谈里对那个游戏的评价是:”很烂。”后来他上Udemy学Python,跟着课程做了另一个游戏,评价同样是:”也很烂。”他还尝试过Andrew Ng在Coursera上的机器学习课程——那是全球最受欢迎的AI入门课之一——但完全看不懂。他说他当时以为问题出在自己身上,以为自己就是不够聪明。

如果故事在这里结束,它只是一个”有人尝试学编程没学会”的平凡故事,全世界每天都有无数人经历着同样的事。

有意思的是接下来发生的事。

Gabriel创业之后,面对真实的客户需求,他突然开始学会了那些以前怎么都学不会的东西。不是因为他变聪明了,也不是因为他找到了更好的教程。是因为环境变了——以前学编程是”我在看一个课程”,现在学编程是”如果我明天搞不定这个功能,客户就流失了”。

他说了一句让主持人沉默了好几秒的话:没有压力我几乎学不会东西。

这句话听起来像是在为懒惰辩护,但认知科学家可能不会这么看。

两条路

教育研究者通常把学习路径分成两种:bottom-up和top-down。

Bottom-up是学校的默认模式。先学线性代数,再学概率论,再学统计学习,再学神经网络,最后做一个项目。这像盖房子——先打地基,再砌墙,再封顶。结构完整,循序渐进。好处显而易见。

坏处也显而易见:你可能在打了两年地基之后,发现自己对这栋房子毫无兴趣。

Top-down是另一种路径:先接一个真实的任务——比如给客户做一个推荐系统——然后在做的过程中遇到不懂的地方,当场补。发现不懂推荐算法,去查。发现推荐算法里有矩阵运算,去学。发现矩阵运算需要线性代数的直觉,再去补。哪里漏水就修哪里。

Gabriel走的就是top-down。

问题是,为什么学校几乎不用这种方式教学?

答案很现实:top-down需要老师持续判断”这个学生此刻卡在哪里”、”下一步该给他补什么”——这等于给每个学生配一个全天候的私人导师。在一个四十人的班级里,这是不可能的。所以学校选择了bottom-up。不是因为它效果最好,而是因为它是唯一能规模化的方案。

这个困境在教育史上并不新鲜。1984年,教育心理学家Benjamin Bloom发表了一篇著名论文,发现接受一对一辅导的学生,表现能超过常规课堂教学中98%的学生。他把这个发现叫做”两个标准差问题”(2 sigma problem)——私人辅导比课堂教学好两个标准差,但你没有办法给每个学生都配一个私人导师。这个问题困扰了教育界四十年,没有人找到解决方案。

认知科学家John Sweller提出的”认知负荷理论”可以进一步解释两种路径的效率差异。人的工作记忆容量极其有限,一次能处理的独立信息块不超过四到七个。Bottom-up路径的一个隐性成本在于:当你学到第三层知识的时候,你已经记不清第一层为什么重要了,而且你完全不知道眼前这些知识将来会用在哪里。大量的认知资源被浪费在”维持意义感”上——你不停地问自己”我为什么要学这个”,这个问题本身就在消耗你有限的工作记忆。

Top-down路径则不存在这个问题。你始终有一个具体的、紧迫的目标——让系统跑起来,让客户满意,让bug消失——每一块新知识都自动嵌入了上下文,不需要你额外花精力去给它”找意义”。

但top-down有一个致命的前提条件:你需要一个能随时回答你问题的导师。四十年来,没有人能规模化地满足这个条件。

然后,ChatGPT出现了。

Bloom的”两个标准差问题”,在技术层面上,突然有了一个接近可行的解决方案。

递归

Gabriel在访谈里描述了他用AI学习的完整流程。

如果他想学机器学习,他会先问ChatGPT:我该做什么项目?让它帮忙设计一个项目计划。然后让它写出完整代码。代码一定会报错——这反而是好事,因为从修bug开始学,比从空白页面开始学要高效得多。他一步步把程序跑起来。能跑之后,盯着某个模块追问:这段在做什么?为什么这个函数能让模型学到东西?ChatGPT会提到反向传播和矩阵乘法。他就继续追问数学直觉——不要公式,给我类比,给我示意图,给我一个”如果不这么做会怎样”的反例。

一层一层往下钻,直到触及他能理解的基础。然后回到项目,继续往前走。

访谈的主持人把这个方法类比为费曼学习法——最好的学习方式是把你理解的东西讲给别人听,让别人检查你的理解对不对。Richard Feynman说过,如果你不能把一个概念用简单的语言解释给一个小孩听,你就还没真正理解它。在ChatGPT的时代,”别人”可以是AI。你把自己的理解讲给它听,它告诉你哪里对、哪里不对、哪里只对了一半但遗漏了关键条件。

Gabriel给这套循环取了一个名字:递归式知识填补(recursive knowledge-filling)。

“递归”这个词来自计算机科学——一个函数调用自己来解决问题。你把一个大问题拆成结构相同的小问题,对每个小问题再做同样的拆解,直到触及最基本的单元。Gabriel的学习过程就是递归的:做→卡住→追问→获得解释→对解释中不懂的部分继续追问→获得更底层的解释→直到触及自己能理解的地方→返回,继续做。

这里有一个关键的细微之处,很容易被忽略:他不是在用AI跳过基础知识。线性代数、概率论、微积分——这些东西他最终都学了。他只是改变了学习的顺序:不是先学完所有基础再动手,而是先动手,在需要的时候再补基础。该学的一样都没少,只是每一块知识都带着明确的目的——“我学这个是因为我的推荐系统需要它”。

他说,如果只能用一个词来总结这套方法最关键的能力,那就是:知道自己哪里没懂。

这话听起来像是废话,做起来极难。大多数人在学习时的默认模式是”感觉大概懂了”就往下走——这相当于在承重墙上留了一条裂缝,短期看不出问题,但地基是虚的。心理学家有一个专门的术语来描述这种现象:流畅性错觉(illusion of fluency)——当一段解释读起来通顺、看起来合理时,你的大脑会自动把”读懂了”等同于”学会了”。Gabriel的方法之所以有效,是因为”用自己的话复述给AI听”这个动作,强行打破了流畅性错觉:你以为自己懂了,但当你尝试复述的时候,你会发现有些环节你根本说不清楚。

作弊还是学习

在继续讲Gabriel的职业故事之前,有一个相关的插曲值得停下来讲。

ChatGPT在2022年底推出之后,全球的教育系统几乎同时发生了一场小型恐慌。学生的第一反应是”太好了,可以帮我写作业”。老师的第一反应是”完了,大家要作弊,必须禁止”。

这两个反应互相强化,形成了一个闭环。学生看到AI被禁止,确认了它是一种”作弊工具”——既然是作弊工具,那它的唯一用途就是帮我偷懒。老师看到学生果然在用AI写作业,确认了自己的判断——果然是作弊源头,必须严防死守。

在这种叙事环境下,”AI可以用来学习”这个想法几乎没有生存空间。没有人会自然而然地想到:等一下,也许我可以不让它替我写作业,而是让它教我怎么写?

Gabriel在访谈里提到一个有趣的变化:最近他在瑞典的一些朋友开始用ChatGPT做一件不同的事——把历年考试题丢给它,让它总结核心概念,然后生成同类型的新题来练习。他们不是在让AI替自己考试,而是在让AI帮自己备考。同一个工具,用法翻转了180度。

这个差别看起来很小,但它背后的认知差距是巨大的。你把AI当答案机,它就只能强化你的依赖——你越用它代劳,你自己的能力越退化。你把AI当教练,它才会强化你的能力——每一次追问都在迫使你思考,每一次复述都在巩固你的理解。

区别不在工具,在人。

真正稀缺的东西

现在让我们回到Gabriel的职业轨迹。

到这里,我们可以回答开头提出的那个问题了:一个看不懂基础课程的辍学生,是怎么走到OpenAI的?

答案不是”他是天才”。他自己都说他不是。

答案也不是”辍学是一种优势”。访谈材料里反复强调,大学提供的社交网络、资源和视野仍然有很高的替代成本,不鼓励任何人模仿他辍学。

真正的答案,藏在访谈中一个反复出现的词里:agency——能动性。

当知识获取的成本趋近于零——你可以随时问ChatGPT任何问题、获得任何领域的入门解释——“知道很多东西”这件事本身就不再是稀缺资源了。稀缺的变成了另外一些东西:谁愿意动手?谁能定义问题?谁敢对结果负责?

Gabriel从最早带着A3大图上门推销的那一天起,就一直在做同一件事——把能力变成可见的结果。他不跟客户谈学历、背景和资质,他直接展示效果对比,当场用代码证明。

后来他要去美国工作,面临签证问题。没有高中学历,传统的移民路径对他来说几乎全部封死。他走的是O-1A——杰出人才签证,通常需要学术论文、国际奖项、行业认可等”硬证据”。他一个都没有。他没有论文,没有学位,没有任何传统意义上的学术成果。

他做了一件跟上门推销异曲同工的事:把自己在Stack Overflow等技术社区发布的高质量回答和贡献整理成证据包,论证这些贡献具有行业影响力和同行认可度。这些东西在传统标准里不算”学术成果”,但它们满足O-1A签证的核心要求——证明申请者在其领域具有”杰出能力”。

申请被批准了。

不是”请相信我”,而是”来验证我”。

他在访谈中给了一个很实际的建议:如果你没有传统背景做背书,就做一个简单但有效的demo,让别人三秒内看懂你做了什么。很多人误以为demo必须复杂,其实越简单越有力——因为复杂的东西需要解释,而解释的过程中对方的注意力早就散了。如果有机会,主动提出短期试用或者帮忙做一个小项目,让对方零风险地评估你。你承担所有的风险,对方只需要打开眼睛看。

这套策略之所以有效,是因为它精确地回应了AI时代一个底层结构的变化:当获取知识的门槛被AI抹平之后,真正区分人的,不再是你脑袋里装了多少东西,而是你愿不愿意走出去敲那扇门。

洋葱的最里层

每一个好故事都有一个容易被误读的表层。

Gabriel Petersson的故事,表层是”辍学少年逆袭进入OpenAI”。如果你只记住这一层,你会得出一个危险的结论——学历不重要,学校没有用。

但如果你像剥洋葱一样一层层剥下去,你会看到完全不同的东西。

第一层:他不是因为讨厌学校而辍学,他是被一个真实的项目拽走了——压力和交付的截止日期成了他真正的”课程体系”。

第二层:他不是用AI跳过了基础知识,他是用AI把基础知识从”预先储备”变成了”按需补齐”——该学的一样都没少学,只是学的顺序变了。

第三层:他不是在证明”不需要学习”,他是在证明”学习的方式需要改变”——从被动接收变成主动追问,从看懂变成能推进。

第四层:他不是在证明”个人英雄主义”,他是在证明一种可复用的方法论——找到一个必须交付的真实任务,卡住就追问,追问到能继续做为止,然后把结果公开出来让世界验证你。

最里面一层,也是最重要的一层:在一个知识免费的时代,他用行动回答了一个所有人都在回避的问题——如果知识不再稀缺,那什么才稀缺?

答案是你愿不愿意动手。

1984年,Benjamin Bloom发现私人辅导比课堂教学好两个标准差。他把它当成一个”问题”——因为我们没有办法给所有人配私人导师。四十年后,ChatGPT在技术层面上接近了这个梦想,但Bloom当年没有预见到的是:即便你给每个人都配了导师,真正决定学习效果的,仍然不是导师有多好,而是学生愿不愿意开口问第一个问题。

2400年前苏格拉底说,他唯一知道的事情就是自己什么都不知道。在ChatGPT的时代,这句话或许需要一个更新版本:

你唯一需要知道的,是你接下来要做什么。

然后去做。

知识免费之后

发表于 2026/02/20 | 分类于 AI专题

风格参考:Morgan Housel(《金钱心理学》作者)—— 短故事引出普适原理,每节几乎独立,文字干净利落,金句密度高。

漏水的房子

1831年,迈克尔·法拉第发现了电磁感应。他没有上过大学。他14岁在一家装订作坊当学徒,每天接触大量书籍,但没人教他物理。他学物理的方式是——有一天顾客送来一本《大英百科全书》要求装订,他翻了翻,觉得有意思,就自己开始做实验。

他没有先修数学,没有先学牛顿力学,没有先搞懂欧姆定律。他直接动手做实验,卡住了就去找书看,看完了继续做。这就像住进一栋还没装修的房子,哪里漏水修哪里。

法拉第后来被公认为历史上最伟大的实验物理学家之一。如果他当年先去读一个物理学学位再开始做实验,电磁感应的发现可能会推迟很多年——因为当时的大学物理教育根本不教实验方法,只教数学推导。

两百年后,一个瑞典少年用几乎相同的方式学会了机器学习。


下一班车

Gabriel Petersson在瑞典读高中时,他的表兄打来电话,说要去斯德哥尔摩做一个电商推荐系统的创业项目,让他马上过来帮忙。Gabriel说今晚有个派对。表兄说现在就来。

他买了下一班车票,之后再也没回过学校。

五年后,他加入了OpenAI的Sora团队。

人们喜欢把这类故事读成”辍学天才逆袭”。但Gabriel本人反复强调,他不是天才。他试过Andrew Ng的机器学习课程,完全看不懂。他写的第一个程序是一个”很烂的回合制游戏”。他说过一句很诚实的话:没有压力,我几乎学不会东西。

有意思的不是他的天赋,而是他的方法。


18岁的推销员

到了斯德哥尔摩之后,Gabriel面对的第一个挑战不是技术问题,而是没人买他的东西。

冷邮件没人回。电话建立不了信任。一个18岁的无名少年,没有公司背景,没有客户案例,试图说服成熟的电商企业更换推荐系统——这在任何一个商业教科书里都叫”不可能的推销”。

他做了一件大多数人不会做的事:上门。

提前爬取客户网站的数据,训练一个新的推荐模型,把”旧推荐 vs 新推荐”的效果对比打印在A3大图上,带着文件夹一家家敲门。见到负责人就打开文件夹。对方看完对比图,问”怎么上线”。他当场在浏览器控制台里跑代码,实时替换推荐结果。

不说”请相信我”。说”你自己看”。

这个推销方式粗糙、不可扩展、留下了一堆技术债。但它传达了一件事:我的能力不需要你的信任,只需要你的眼睛。

五年后他申请美国杰出人才签证时,用的是同一套逻辑。


方向相反的两条路

学习有两条路。

一条是自下而上:先学基础,再学进阶,再学应用,最后做项目。这是学校的路。它像搭积木——从底层一块块往上垒,结构稳固,但速度很慢,而且你在搭到第三层的时候可能已经忘了为什么要搭这个东西。

另一条是自上而下:先接一个真实的任务,做的过程中卡住,卡住了就去补那一块缺失的知识,补完继续做。这是Gabriel的路。它像修房子——先住进去,哪里漏水修哪里。

学校选择第一条路,不是因为它效果好,而是因为它是唯一能同时教四十个人的方法。自上而下的路径需要一个随时能回答你问题的导师,在传统教育中,这个条件不可能满足。

1984年,教育心理学家Benjamin Bloom做了一个实验:接受一对一辅导的学生,表现超过了98%接受常规课堂教学的学生。Bloom把这个发现叫做”两个标准差问题”——我们知道最好的教学方式是什么,但我们做不到,因为没有那么多导师。

四十年后,ChatGPT满足了它。不完美,但足够用。


递归

Gabriel给他用AI学习的方法取了一个名字:递归式知识填补。

操作很简单。想学机器学习,就先让ChatGPT设计一个项目、写出代码。代码会报错。从修bug开始,把程序跑起来。跑起来之后追问:这段代码在做什么?为什么它能让模型学东西?ChatGPT提到矩阵乘法,那就继续追问矩阵乘法的直觉。追到你真正理解的地方为止,然后回到项目,继续做。

一层一层往下钻,一层一层再返回。像递归函数一样,直到触及最基本的单元。

有人会问:这跟”跳过基础”有什么区别?

区别很大。跳过基础是不学。递归式填补是在需要的时候学,带着明确的上下文和目的学。最终该学的东西一样都没少,只是顺序变了。

一个类比:你要从北京去上海。自下而上的方式是先学会造汽车,再学会修路,再学会导航,最后出发。递归的方式是先买一张票出发,路上遇到问题再解决——但你最终一样会到达上海,而且你对路况的理解可能比造车的人更深,因为你是真正走过这条路的人。


费曼的升级

Richard Feynman有一条著名的学习原则:如果你不能用简单的语言把一个概念解释给别人听,你就还没真正理解它。

这条原则有一个实操困难:你得找到”别人”。而且这个”别人”最好懂得比你多,能检验你的解释对不对。

Gabriel把”别人”换成了ChatGPT。他把自己的理解讲给AI听,AI告诉他哪里对、哪里不对、哪里只对了一半。

他说这套方法里最关键的一个能力是:知道自己哪里没懂。

大多数人学东西的默认模式是”感觉差不多懂了”就翻过去。这不是学习,这是划水。真正的学习发生在你逼自己说出”等一下,这里我其实不理解”的那一刻。

心理学家有一个词叫”流畅性错觉”——当一段话读起来很顺畅的时候,你的大脑会自动把”读懂了”等同于”学会了”。这两件事完全不是一回事。你读懂了一篇关于游泳的文章,不代表你会游泳。

Gabriel的方法之所以有效,是因为”用自己的话复述”这个动作,强行打破了流畅性错觉。你以为你懂了,但当你开口讲的时候,你会发现有些地方你根本说不清楚。


两种用法

ChatGPT刚推出的时候,学生的第一反应是”太好了,能帮我写作业”。老师的第一反应是”完了,必须禁止”。

这两个反应合在一起,把AI锁死在了”作弊工具”的定位上。

但工具不决定用法,人决定。

你把AI当答案机,它给你答案,你的能力原地不动。你把AI当教练——追问、复述、让它检查你的理解、让它给你反例——你的能力每一轮都在增长。

同一个工具,用法不同,结果天壤之别。这就像钱:有人用它买彩票,有人用它买书。钱没有变,变的是拿钱的人。

Gabriel提到一个有意思的趋势:他在瑞典的一些朋友开始把历年考试题丢给ChatGPT,让它总结核心概念,再生成同类型的新题来练习。不是让AI替自己考试,而是让AI帮自己备考。

这是一个180度的翻转。但它需要一个前提——你得先意识到,AI不只是一台复印机。


信号

Gabriel没有学位,但他持续拿到了好机会。他是怎么做到的?

从最早上门推销推荐系统那天起,他就在做同一件事:把能力变成别人看得见的结果。

不说”请相信我有能力”,而是打开文件夹,展示效果对比图,当场在浏览器里跑代码。后来申请美国的杰出人才签证,没有论文和学位来背书,他就把自己在技术社区发布的高质量内容整理成证据包,作为学术贡献的替代证明。

大多数人在证明自己的时候,习惯递上一份简历,上面列着学校、学位、公司名称。这些是代理信号——它们不直接说明你能做什么,只是暗示”能拿到这些标签的人大概不会太差”。

Gabriel用的是直接信号:这是我做的东西,这是它的效果,你来判断。

代理信号需要别人的信任。直接信号只需要别人的眼睛。

在简历被筛掉的世界里,一个能跑的demo胜过一页纸的经历。


复利

Albert Einstein可能从来没有说过”复利是世界第八大奇迹”这句话。但这并不影响复利本身是一个极其强大的概念。

知识也有复利效应。

当你解决了第一个客户的推荐系统问题,你学到的不只是”如何做推荐系统”。你还学到了如何跟客户沟通需求,如何在浏览器控制台里调试代码,如何把技术效果翻译成商业语言。这些能力会在你解决第二个、第三个、第十个客户问题的时候反复派上用场,而且每一次使用都让它变得更强。

Gabriel五年内从零基础走到OpenAI,看起来像是火箭式跃迁。但如果你拆开看,每一步都不大——每一步只是”解决了当下的一个问题”。它之所以最终产生了巨大的结果,是因为这些步骤是复利式累积的:每一个新能力都建立在之前所有能力的基础上,而且每一次积累都增加了下一次积累的速度。

这就是为什么”先动手”比”先准备”更有效。

你准备了三年再开始,你错过了三年的复利。而知识复利跟金融复利一样,真正产生巨大差异的不是利率高低,而是时间长短。越早开始,优势越大。


稀缺

经济学有一条最基本的道理:价格由稀缺性决定。

钻石贵,因为稀缺。空气免费,因为不稀缺。

知识曾经是稀缺的。获取它需要学费、时间、人脉和运气。所以”懂得多”是一种竞争优势,学历是它的证明。

现在知识不稀缺了。你可以在任何时刻、向ChatGPT问任何领域的任何问题,几秒钟得到一个80分的回答。

那什么变稀缺了?

是愿意动手的人。是能定义问题的人。是对结果负责的人。是在卡住的时候不翻过去、而是追问到底的人。

Gabriel在访谈里反复用一个词:agency。翻译过来就是能动性。

知识是原材料。能动性是把原材料变成成品的那双手。原材料可以免费获取,但那双手仍然稀缺。

一个有趣的推论:在知识稀缺的年代,”记忆力好”是一种优势——谁记得多,谁就知道得多。在知识免费的年代,记忆力的价值大幅缩水,因为任何你记不住的东西都可以在三秒内查到。取而代之变得重要的,是判断力——面对AI给你的十个答案,你能不能判断哪个最好?面对AI做不到的问题,你能不能定义出来?

记忆力是仓库。判断力是指南针。仓库可以外包给AI,指南针不能。


最后一件事

Gabriel的故事不是”学历无用论”。他自己都说,大学的社交、资源和视野有很高的替代成本。

他真正反对的,是一种更隐蔽的东西——把”我还没准备好”当作不动手的理由。

在知识稀缺的年代,”先准备好再出发”是合理的策略。学完课程再找工作,读完教材再做项目,打好基础再考虑应用。因为获取知识的成本很高,所以你必须先储备。

在知识免费的年代,这个策略的性价比急剧下降。你花三年”打基础”,等你觉得准备好了,世界可能已经换了一道题。

更好的策略是:先动手,遇到不懂的再去学。学完继续做,做完再回头看,你会发现自己比”准备好了才出发”的人走得更远。

这不是新道理。法拉第两百年前就是这么干的。

但在ChatGPT的时代,这条路变得比任何时候都更容易走。以前你”先动手再学”,卡住了可能要等几天才能找到答案。现在你卡住了,三秒钟就能问到。以前这条路上布满了沟壑,现在沟壑还在,但你手里多了一根拐杖。

唯一的门槛是——你得愿意迈出第一步。

而这个门槛,从来都不是知识的问题。

当知识免费之后,什么变贵了

发表于 2026/02/20 | 分类于 AI专题

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点。

“人类最快的学习方式是top-down——从真实任务出发,遇到不懂的就当场补,再继续往下做。” —— Gabriel Petersson

引子:一个不该被当成励志故事的故事

最近有一个访谈在技术圈引起不少讨论。主角叫Gabriel Petersson,瑞典人,五年前还在读高中、几乎没有工程经验,五年后加入OpenAI,成为Sora团队的研究工程师。

这类故事很容易被读成”辍学逆袭”的鸡汤。但如果你只读到这一层,就浪费了它真正有价值的部分。

访谈材料里反复强调一点:这不是在鼓励辍学。 大学提供的社交网络、行业资源和认知视野,仍然有很高的替代成本。Gabriel自己也承认,没有文凭在一些场景确实是硬性限制——比如签证,没有学历让他的移民路径困难重重。

那这个故事的价值在哪里?在于它清晰地展示了一套”AI时代的学习操作系统”——项目驱动、top-down路径、递归追问、用结果替代信号。这套系统不依赖于”辍学”这个极端条件,任何人都可以部分复用。

下面我来逐一拆解。

一、压力即课表:为什么”先上场再学会”比”先学会再上场”更高效

1.1 一个18岁的上门推销员

Gabriel辍学的过程并没有什么戏剧性的深思熟虑。表兄打电话让他去斯德哥尔摩做一个电商推荐系统,他当天就买了车票,之后再也没回学校。

到了创业公司之后,他面对的第一个问题不是技术问题,而是销售问题:冷邮件没人回,电话建立不了信任。于是他发明了一套很”野”的打法——上门推销。提前爬取客户网站数据,训练一个新的推荐模型,把”旧推荐 vs 新推荐”的效果对比打印成A3大图,带着文件夹直接去敲门。

见到负责人之后,当场在浏览器控制台里粘贴脚本替换推荐结果,并内置A/B测试对比收益。很多客户第一次见面就切换了方案。

他也承认这种做法带来了大量技术债——为了获客速度,几乎不考虑系统的可维护性和可扩展性。但他认为在那个阶段,验证商业假设远比写出完美代码重要。这个判断本身就值得注意:它意味着他在18岁的时候就隐约理解了创业中”速度优先于完美”的权衡。

1.2 “没有压力我学不会东西”

主持人问他:一开始不会写代码,怎么学的?

他的技术学习史其实相当坎坷。表兄教他Java,写了个”很烂的回合制游戏”;后来上Udemy学Python,做了个”同样很烂的游戏”;试过Andrew Ng的机器学习课,完全看不懂,一度以为自己太笨。

真正的学习发生在创业之后。 客户集成、爬虫、推荐系统、A/B测试——问题一个接一个摆在面前,解决不了就丢客户。他去Stack Overflow查,找身边人问,硬着头皮试。他说了一句关键的话:没有压力我几乎学不会东西。

这里有一个微妙但重要的区别:不是所有压力都能促进学习,只有”有意义的压力”才行。 考试也是压力,甚至是很大的压力。但考试压力和客户交付的压力,在认知效果上有根本的不同。

1.3 动机研究怎么说

心理学家Edward Deci和Richard Ryan的”自我决定理论”(Self-Determination Theory)区分了两类动机:外在动机(为了考试、为了证书、为了避免惩罚)和内在动机(为了解决一个真正困扰你的问题、为了好奇心、为了胜任感)。大量实证研究表明,当学习者感到自主性(autonomy)、胜任感(competence)和关联性(relatedness)时,学习效果最好。

Gabriel的创业环境恰好同时满足了这三个条件:他自主选择了这条路(自主性),每一次成功交付都强化了能力感(胜任感),客户的即时反馈和表兄的合作关系提供了连接(关联性)。

相比之下,传统的课堂学习往往只满足关联性(同学关系),自主性和胜任感则严重不足——你不能选择学什么,考试只会告诉你”不及格”而不会给你”搞定了”的爽感。

换句话说,压力本身不是他的课程表,”有意义的压力”才是。 考试也是压力,但考试压力不满足自主性条件,所以效果远不如真实项目的压力。

1.4 心流研究的佐证

心理学家Mihaly Csikszentmihalyi在研究”心流”(flow)状态时发现,人在以下条件下最容易进入高效学习和工作状态:任务难度略高于当前能力,目标清晰,反馈即时。 这恰好描述了Gabriel的处境——客户的需求就是清晰目标,代码能不能跑就是即时反馈,而每个新客户的需求都比上一个稍难一点。

反观课堂学习:目标模糊(”学好线性代数”不是一个可操作的目标),反馈延迟(期末才知道成绩),难度要么太低(已经会的内容重复讲)要么太高(完全跟不上)。这几乎是心流的反面。

二、Top-down学习:一种被学校淘汰、被AI复活的路径

2.1 两种学习路径的效率差异

访谈中最有方法论价值的一段,是Gabriel对学习路径的判断:人类最快的学习方式是top-down。

什么是top-down?从一个真实的任务出发,做的过程中遇到不懂的就当场补,补完继续做。与之相对的是bottom-up:先修线性代数,再修概率论,再修统计学习,再修神经网络,最后做项目。

用一个建筑类比:bottom-up是”先设计完整蓝图,再按图施工”;top-down是”先住进去,漏水了修漏水,断电了修断电”。前者适合建摩天大楼,后者适合改造一栋够住的房子。大多数人的学习目标,更接近”改造一栋够住的房子”。

2.2 认知负荷理论的解释

认知科学家John Sweller提出的认知负荷理论(Cognitive Load Theory)提供了一个理解框架。人的工作记忆一次能处理的独立信息块不超过4-7个——这个数字从1956年George Miller发表经典论文以来就没有被推翻过。

Bottom-up路径有一个隐性成本:外在认知负荷过高。 当你学到第三层的时候,你已经记不清第一层为什么重要了,而且你完全不知道这些知识将来用在哪里。大量认知资源被浪费在”维持意义感”上——“我为什么要学这个?””这东西以后到底有什么用?”这些问题本身就在占用你宝贵的工作记忆。

Top-down路径没有这个问题。你始终有一个具体目标(让系统跑起来、让客户满意),每一块新知识自动嵌入上下文(”我学矩阵乘法是因为推荐系统需要它”),外在认知负荷被压到最低,几乎所有的认知资源都投入在了”理解新知识”本身。

2.3 学校为什么不用top-down

答案很简单:top-down无法规模化。

它要求老师持续判断”这个学生此刻卡在哪里”、”下一步应该补什么”——等于给每个学生配一个全天候私人导师。在40人的班级里不可能做到。所以学校选择了bottom-up,不是因为效果最好,而是因为它是唯一能规模化的方案。

1984年,教育心理学家Benjamin Bloom发表了著名的”两个标准差”研究:接受一对一辅导的学生,表现比课堂教学的学生高出两个标准差,也就是超过98%的对照组学生。这个效果量在教育研究中几乎是前所未有的。Bloom把它当成一个”问题”——我们知道什么是最有效的教学方式,但我们做不到。

这是教育领域一个经典的效率-规模权衡:最高效的学习方式往往是最不可规模化的,最可规模化的学习方式往往是最低效的。

2.4 ChatGPT改变了什么

ChatGPT——以及所有大语言模型对话工具——做的事情,本质上是把top-down学习的规模化约束打破了。

以前,你如果想在做项目的过程中随时追问、随时获得定制化的解释,你需要一个私人导师。好的私人导师时薪几百到几千元,而且你得迁就他的时间表。现在,ChatGPT可以24小时扮演这个角色:你卡在矩阵乘法上,它给你讲矩阵乘法;你卡在反向传播上,它给你画示意图;你不确定自己的理解对不对,把理解讲给它听,它逐句检查。

当然,ChatGPT不是完美的导师——它会犯错,有时候错得很隐蔽。但即便考虑到错误率,它的可用性和响应速度仍然远超任何人类导师。而且它的错误是可以被发现的——你可以让多个模型交叉验证,或者回到实际代码里跑一下看看结果对不对。

这不是”用AI作弊”。这是top-down学习第一次有了可规模化的基础设施。 Bloom四十年前提出的”两个标准差问题”,在技术层面上开始有了接近可行的解答。

2.5 一个容易被忽略的前提

需要强调的是,ChatGPT满足的是top-down学习的”导师”需求,但top-down学习还有一个前提条件是它满足不了的:你必须有一个真实的、必须交付的任务。

没有任务驱动的top-down学习是不存在的。如果你只是坐在那里问ChatGPT”教我机器学习”,那本质上还是bottom-up——你让AI当老师给你从头讲起,只不过换了一个更有耐心的老师而已。

真正的top-down是你先有一个项目,在做的过程中碰到了具体的、明确的障碍,然后你带着这个障碍去问AI。问题的质量决定了学习的质量,而问题的质量取决于你是否在真正做一件事。

三、递归式知识填补:把AI变成苏格拉底

3.1 一个可操作的循环

Gabriel给他的学习方法取了一个名字:递归式知识填补(recursive knowledge-filling)。

他举了一个具体例子:想学机器学习,先问ChatGPT该做什么项目,让它设计计划并写出完整代码。代码必然报错,于是从修bug开始把程序跑起来。跑起来之后,盯着某个模块追问——这段在做什么?为什么能让模型学习?ChatGPT提到线性代数和矩阵乘法,于是继续追问数学直觉、要类比、要反例,直到建立真正的理解。然后回到项目继续做。

写成循环,大致是:

动手(做具体任务)→ 卡住 → 追问(问到能继续为止)→ 把抽象变具体(要直觉、类比、反例)→ 反向输出(用自己的话复述,让AI纠错)→ 回到任务

3.2 费曼学习法的AI升级版

访谈主持人把这个过程类比为费曼学习法。Richard Feynman著名的学习原则是:如果你不能把一个概念用简单的话解释给别人听,你就还没真正理解它。

这个原则在传统环境下有一个实操困难:你去哪里找那个”别人”? 你总不能每学一个新概念就拉一个朋友来听你讲。而且朋友的知识水平不一定能检验你的理解是否正确。

ChatGPT解决了这两个问题:它随时可以充当”别人”,而且它有足够的知识储备来检查你的理解——不仅能告诉你对不对,还能指出你遗漏了什么、哪里只对了一半。

如果说费曼学习法是1.0版本(讲给别人听),那Gabriel的方法就是2.0版本(讲给AI听,让AI纠错,追问AI的纠错直到彻底理解)。

3.3 核心能力:知道自己哪里没懂

Gabriel说,这套方法最关键的底层能力是一个:知道自己哪里没懂。

这句话暗含了心理学家所说的元认知(metacognition)——对自己认知过程的监控和调节。元认知能力强的人,能够准确评估”我现在到底理解了多少”,而元认知能力弱的人,容易高估自己的理解程度。

Daniel Kahneman在《思考,快与慢》中讨论过一个相关的现象:人类天生倾向于”认知放松”(cognitive ease)——当一段文字读起来流畅、信息看起来熟悉时,我们会自动倾向于认为自己”已经懂了”,而实际上很可能只是”看过了”。

Dunning-Kruger效应也指向同一个问题:能力不足的人往往最不擅长判断自己能力不足。 你越不懂一个领域,你就越难意识到自己不懂。这是一个令人不安的悖论——恰恰是最需要学习的人,最不知道自己需要学什么。

Gabriel的方法为什么能部分破解这个悖论?因为”用自己的话复述给AI听”这个动作,强制把隐性的理解差距变成显性的。 你以为自己懂了,但当你尝试向AI解释的时候,你会发现有些环节你说不清楚——这就是你的认知缺口。

“看过”和”懂了”之间的差距,就是大多数人学习效率低下的根源。Gabriel的方法强制拉大了这个差距的可见度——因为你必须用自己的话复述、用AI检查,”假装懂了”的空间被压缩到了最小。

3.4 追问的三个层次

基于Gabriel的描述和费曼学习法的原则,我总结了一个实用的”追问三连”框架:

第一层:要直觉解释。 不要公式,不要术语,用最日常的语言和类比让我理解这个概念。如果AI给你一段充满术语的解释,那不是你理解了,是你被术语糊弄了。

第二层:要反例和边界条件。 在什么情况下这个结论不成立?有没有这个方法失败的案例?这一步的目的是建立”边界感”——不是死记一个结论,而是知道它在哪里成立、在哪里不成立。

第三层:反向复述。 用自己的话把理解讲回去,让AI检查。这是最容易被跳过的一步,也是最关键的一步。跳过它,你就停留在”看过”的层面;做了它,你才进入”懂了”的层面。

四、知识廉价之后,什么变贵了

4.1 能动性:AI时代真正稀缺的资源

Gabriel的故事容易被简化为”天赋”或”运气”。但访谈中反复出现的关键词指向了一个更底层的变量:agency(能动性)——你主动提出问题、定义需求、推动进程并对结果负责的意愿和能力。

为什么能动性在AI时代变得更重要?因为一个结构性的变化已经发生:

维度 AI之前 AI之后
获取知识 成本高(学费、时间、人脉) 成本趋近于零
获取示例代码 需要搜索、筛选、调试 直接生成
获取个性化解释 需要导师或专家 随时可得
定义问题 需要人来做 仍然需要人来做
选择方向 需要人来做 仍然需要人来做
持续推进 需要人来做 仍然需要人来做
承担结果 需要人来做 仍然需要人来做

上面三行的成本被AI大幅压缩了,下面四行几乎没有变化。这意味着,知识和信息不再是区分人的核心变量;真正区分人的,是谁愿意动手、谁能定义问题、谁能持续推进、谁对结果负责。

经济学的基本逻辑:当某种资源从稀缺变为充裕,与它互补的资源就会变得更值钱。 电力普及之后,会使用电力设备的工人变贵了。互联网普及之后,能生产优质内容的创作者变贵了。AI把知识变得廉价之后,能运用知识去解决问题的能动性就变贵了。

4.2 证据链:把能力变成信号

Gabriel在没有传统学历信号的情况下能持续获得机会,靠的是一套”证明策略”:

从最早上门推销推荐系统开始,他就在做一件事——把能力变成可见的结果。 不跟客户谈学历、背景和资质,直接展示效果对比,当场用代码证明。后来申请O-1A杰出人才签证时,他把在Stack Overflow等技术社区的高质量贡献整理成证据包,作为”学术成果”的替代证明——没有论文,就用社区影响力代替;没有学位,就用交付成果代替。

经济学家Michael Spence在1973年提出的信号理论(signaling theory)可以解释这里的逻辑:在信息不对称的市场中,求职者需要发送”信号”来证明自己的能力。传统上,最常用的信号是学历——因为它获取成本高,所以具有筛选功能。但学历是一种代理信号(proxy signal),它不直接证明你能做什么,只是间接暗示”能考上好大学的人大概率能力不差”。

Gabriel做的事情是用直接信号替代代理信号——不是”我有学位所以我可能能干活”,而是”这是我的作品、这是效果数据、这是第三方评价,你自己判断”。

在传统的劳动力市场中,代理信号之所以有效,是因为验证直接信号的成本很高——招聘方没有时间、精力和专业能力去评估每个人的实际作品。但AI时代正在降低这个验证成本。你可以快速做一个demo,对方可以快速评估;你可以在GitHub上展示代码,任何人都可以审查;你可以做一个短期试用项目,让结果说话。

他在访谈中给的建议非常具体:做一个简单但有效的demo,让对方三秒内看懂你做了什么。主动提出短期试用或免费帮忙做小项目,让对方低风险评估你。不要请求”相信我”,要提供”验证我”。

4.3 AI在教育中的集体误读

访谈里有一段非常现实的讨论。ChatGPT推出之后,学生第一反应是”太好了可以写作业”,老师第一反应是”完了大家要作弊必须禁止”。两个反应互相强化,形成一个闭环:AI在学校的叙事里被锁定为”作弊工具”。

这是一种集体误读。 它把AI最低层次的用法(替你生成答案)当成了AI的全部用法,忽略了真正有价值的那层——AI可以作为学习的加速器。

Gabriel提到一个有趣的变化:最近他在瑞典的一些朋友开始用ChatGPT把历年考试题丢给它,让它总结核心概念,然后生成同类型的新题来练习。不是让AI替自己考试,而是让AI帮自己备考。

这个区别看起来很小,但背后的认知差距是巨大的。你把AI当答案机,它就只会强化你的依赖。你把AI当教练,它才会强化你的能力。这不是工具的问题,是使用者的选择。

行为经济学家有一个概念叫”框架效应”(framing effect)——同样的信息,用不同的方式呈现,会导致截然不同的决策。AI在教育中的命运,很大程度上取决于它被如何”框架”——如果它被框架为”作弊工具”,学生就会把它当作弊工具用;如果它被框架为”学习教练”,学生才可能把它当教练用。目前的现实是,绝大多数教育环境都在强化前一种框架。

结语:一把新的尺子

最后,回到这个故事最容易被误读的地方。

Gabriel的故事不是”学历无用论”。他真正反对的不是学校本身,而是一种更深层的路径依赖——把”学习”当目的、把”打基础”当拖延的思维习惯。

这种路径依赖在知识稀缺的年代是合理的。获取知识成本很高,所以你必须先花几年时间储备,然后才能”上场”。但在AI把知识获取成本压到接近零的今天,这种路径依赖的代价变得前所未有地高。你花三年”打基础”,等你”准备好了”,问题和机会可能早就换了一茬。

经济学家Tyler Cowen有一个观点:在变化速度快的环境中,”行动的期权价值”远高于”等待的期权价值”。 你现在就动手做一个项目,即使做得很烂,你也获得了关于”下一步做什么”的信息。你坐在那里等自己”准备好”,你获得的信息是零。

如果只从这个访谈里带走一个判断,我建议是这个:

当知识不再稀缺,衡量一个人的尺子就不再是”你知道多少”,而是”你能用知道的东西做出什么”。 能动性、追问的耐心、把能力变成可验证结果的习惯——这些是新尺子上的刻度。

Gabriel的经历极端,不可照搬。但他的方法论——找一个必须交付的真实任务,在做的过程中卡住,卡住就追问,追问到能继续做为止——这是任何人明天就可以开始实践的。

不需要辍学,不需要搬去斯德哥尔摩,不需要做出一个推荐系统。你只需要找到一个足够真实的问题,然后动手。

上一页1234…31下一页

301 日志
9 分类
RSS
© 2017 — 2026 李文业
由 Hexo 强力驱动
|
主题 — NexT.Muse
粤ICP备17160932号