从vibe coding到Claws:Karpathy在2026年初到底看见了什么

风格参考:万维钢(《精英日课》作者)—— 跨学科引证,框架式拆解,加粗关键洞察,用数据和类比交叉验证每个论点;局部借用 Paul Graham 的短句节奏感。

引子:追 Karpathy,追的不是热词

如果你只是偶尔刷到 Andrej Karpathy 的名字,你可能觉得他就是那个特别会造词的人——“Software 2.0”“vibe coding”,每隔一阵蹦出一个能传播的短语。

这个印象不算错,但严重不够。

Karpathy 真正厉害的地方,从来不是“他造的词是不是永远正确”,而是他往往能在一个拐点刚刚到来、行业里大多数人还只有朦胧感觉的时候,先把那个拐点压缩成一句能记住、能传播、能继续推演的话。这是一种非常稀缺的能力:把模糊的体感变成清晰的公共语言。

过去如此——从“Software 2.0”到“vibe coding”。现在也如此——从“agentic engineering”到“Claws”。

2025 年 12 月到 2026 年 2 月之间,他的更新不只是多了几个新名词。如果你把他这几个月在 X 上的短帖、GitHub 上的新项目、以及零星访谈串起来看,会发现一张越来越清晰的地图:程序员工作的重心正在整体上移——从手写代码,到组织上下文、分派任务、设计验证、审查结果,再到多 agent 系统的编排。

这不是一条线索,而是一整条主线。下面我们一层一层拆。


一、底盘:2025 年末那篇综述里埋下的判断

要读懂 Karpathy 在 2026 年初的兴奋,得先回到 2025 年 12 月 19 日他发的那篇《2025 LLM Year in Review》。那是他至今最后一篇长文,也是后来很多判断的总纲。

里面有两个关键观察。

第一个:他不再把 LLM 看成“动物”,而更像“幽灵”。 一种有明显能力、不均匀智能、又带着强烈“锯齿感”的系统。它在某些维度上超过人类,在另一些维度上又脆弱得离谱。这个隐喻很重要,因为它决定了他后来如何看待 coding agents——它们不是成熟员工,而是某种需要被召唤、被约束、被分派、被反复校验的非人式智能。

第二个:像 Cursor 这样的产品,揭示的不是“更好补全”的小升级,而是一整层新的 LLM 应用范式。 这一层的关键不只是模型本身,而是上下文工程、编排、应用专用 GUI、自治程度滑杆。真正有价值的东西不在“会不会生成几行代码”,而在于能不能把模型置于一个合适的操作环境里,让它带着足够上下文、工具、权限和反馈循环去工作。

他还专门谈到 Claude Code,把它视为第一个真正让他感到“AI 住在你电脑上”的东西。他甚至直言,OpenAI 当年把 Codex 的优先级顺序弄反了——先去做云端容器里跑的编码系统,而不是先做一个真正运行在开发者本地环境里的 AI 助手。

这句话在 2026 年初回头看,含义比当时更大。因为他后来对本地 agent、CLI、NanoClaw、“被小幽灵附身的设备”的兴趣,根全埋在这里。


二、从谨慎到震动:一个原本不全信 agent 的人改口了

要理解这波变化的分量,必须记住一件事:Karpathy 在几个月前并没有这么乐观。

2025 年 10 月,他在一次公开对谈里谈“year of agents”时,反而相当保守。他给 agent 下了一个更严格的定义:不是偶尔能跑个 demo 的系统,而是像一个实习生甚至员工一样,能在复杂环境中长期独立完成任务。按这个标准,他当时的判断是——真正的 agent 可能还需要大约十年。

他甚至点名说,coding agents 当然已经能做不少样板工作,但对 nanochat 那种“智力密度高、精度要求高”的仓库,他不觉得 agent 已经足够好。

这段话今天回看极其重要。它说明 Karpathy 最近的兴奋,不是“逢新必吹”的兴奋,而是在原本谨慎的基线之上发生了体感性变化。 如果连一个原本相对怀疑的人,都在 2025 年 12 月到 2026 年 2 月之间持续改口,那么这波变化就值得认真对待。

转折开始于一种“落后感”。

2025 年 12 月 26 日,他发了一条动态:自己从没像现在这样觉得在编程这件事上“落后了”。后面跟着一个判断:程序员的职业正在被“dramatically refactored”。如果能把过去一年里新出现的那些东西真正串起来用,自己的效能可能会强十倍。

这不是对单点能力的赞叹,而是对一个新抽象层突然成形的惊讶。

他列举的新对象更有意思:agents、subagents、prompts、contexts、memory、modes、permissions、tools、plugins、skills、hooks、MCP、LSP、slash commands、workflows……这串名词像一个杂乱工具箱,但他想表达的恰恰是:软件工程的前台对象已经变了。程序员不再只是面对“代码文件 + 编辑器 + 编译器”,而是开始面对一整套由代理、上下文、记忆、权限、工具协议和工作流组成的新运行环境。

用一句话说:编程活动的基本单位正在从“写代码”转向“调度智能”。


三、工作流翻转:两个月内的“相变”

2026 年 1 月 26 日左右,Karpathy 发出了一串“random notes from Claude coding”。这是理解他最近几个月最核心的一手材料。

里面最关键的一句:他自己的工作流在短短两个月里,从 80% 手写/自动补全 + 20% agents,迅速翻转成 80% agents + 20% 修改收尾。 他还说,自己现在“mostly programming in English”。

这不是修辞游戏。这是在描述劳动重心的真实移动。

物理学里有一个概念叫“相变”——水从液态到固态的转变不是匀速发生的,而是在温度到达某个临界点后突然切换。Karpathy 这一轮描述更像相变而不是渐变:前面很长一段时间,coding agents 都像不稳定的实验玩具,能偶尔惊艳,却无法可靠纳入主流程;到了 2025 年 12 月前后,某些模型能力、工具链和使用方式叠加到一起,突然跨过了可用阈值,从“演示级”变成“工作级”。

他甚至直接说,这是他大约二十年编程生涯里最大的工作流变化,而且几乎是在几周之内发生的。

翻译成人话:过去你在编辑器里“写”;现在你越来越像在给一批高智力但不稳定的实习生“分任务”。 你要提供目标、上下文、边界、测试与回滚机制,然后等它交付,再做判断、审阅和修补。代码依然重要,但它不再是程序员最稀缺的产出。真正变得更稀缺的,是把问题说清楚、把执行过程包起来、把结果验明白的能力。


四、新的错误谱系,与为什么仍然是巨大净提升

Karpathy 没有把这件事描写成完美自动化。恰恰相反。

他对 coding agents 的问题说得非常具体:过去人类手写代码时,常见错误往往是语法型、低级型的;而现在错误越来越多地变成更微妙的概念性错误——模型整体思路听起来对、代码也能跑,但在架构边界、业务假设、隐含约束和权衡取舍上出现偏差。这种错误比拼写错误更危险,因为它们更像“看起来很合理的误导”。

他点出了一组极有代表性的 agent 失真:

  • 擅自做假设,不主动请求澄清。
  • 不主动暴露上下文中的冲突和 tradeoff。
  • 过于顺从、过于“sycophantic”——几乎不会像一个好同事那样在关键地方顶回来。
  • 喜欢过度工程化:膨胀抽象层、堆 API、留下死代码。

认知科学家 Gary Klein 研究过专家决策,发现优秀专家最重要的能力之一是**“及时发出异议”——在团队即将走上错误路径时主动喊停。LLM 恰恰缺失这种能力。它的危险不只是“笨”,而是“太会顺着你往前跑”,以至于它在错误方向上也能表现出极强执行力。“流畅输出”被误判成“正确理解”——这是 agent 时代最隐蔽的风险。**

但有意思的是,正是在列完这么多毛病之后,Karpathy 仍然给出一个非常明确的判断:这是净巨大提升,而且他已经很难想象再回到纯手写的旧模式。

这个结论一开始看似矛盾,但其实非常合理。原因在于,coding agents 真正带来的不只是把原有流程加速 20%,而是让一些原本“不值得做”“懒得做”“不会做”的事情第一次进入了可行区间。

他特别强调了一个人类很难复制的维度:tenacity——韧性与持续折腾的能力。 人会累、会烦、会因连续碰壁而气馁。Agent 不会。它可以在 SSH、依赖、部署、服务、日志、回归测试之间一遍遍试,直到某个长链条被打通。他举过一个具体例子:让 agent 在本地机器上一路完成登录、配 key、跑 vLLM、下载并 benchmark 模型、起服务、做 dashboard、写 systemd、回传报告,整个过程约三十分钟。

经济学家 Tyler Cowen 有一个判断:新技术真正的威力往往不是“让老任务更快”,而是“让新类别的任务变得可行”。 Karpathy 的体验完美印证了这一点——提升不只体现在老任务的吞吐量上,也体现在你愿意探索的任务空间变大了。许多过去得压箱底几周的想法,开始可以在几个晚上里先弄出原型。


五、三个词的递进:从代码到编排

外界最熟悉 Karpathy 的流行语,也许还是“vibe coding”。那个词之所以会火,是因为它精准描述了第一波大众体验:你不再逐字逐句写代码,而是带着一种半即兴、半对话式的感觉,让 AI 帮你把东西凑出来。它标记了一个文化门槛:从“代码必须由程序员写”到“代码可以由会说需求的人协作生成”。

但到了 2026 年初,Karpathy 显然觉得这个词不够了。

原因很简单:当工具从“你随便聊聊,它给你拼出个小玩意儿”进化到“它能在数十分钟里持续完成长链条工程任务”,工作的本质就变了。此时最大的挑战不再是“敢不敢把手放开”,而是如何设置上下文、分解子任务、选择工具、调权限、看日志、做验证、控回滚、管并行。这些工作已经超出了“凭 vibe 玩一玩”的层面,进入了一种需要方法论、经验和审美的工程活动。

所以他开始用**“agentic engineering”**。这个词要强调两层意思:一层是“agentic”——你并不是 99% 时间都在直接写代码,而是在调动代理执行;另一层是“engineering”——这不是完全无门槛的自动化,反而需要更高层次的专业判断、创造性约束和科学式验证。

Karpathy 不是在宣布“工程师不重要了”,而是在说:工程师的重要性正在上移,且形式正在变化。 写代码本身变便宜了,高质量地组织代码生成与验证变贵了。

然后到了 2 月下旬,他又把视线往上抬了一层——“Claws”

他专门买了一台 Mac mini 来折腾 Claws。这个动作本身很有象征意味:他不是只在抽象层面谈概念,而是真的把一台物理机器当成实验场,去想象“在个人硬件上常驻的 agent 编排系统”会长什么样。

Karpathy 对 Claws 的定义很清楚:它是叠在 LLM agents 之上的新层,处理的不是单次回答,而是 orchestration、scheduling、context、tool calls、persistence。如果说单个 coding agent 解决的是“一个代理怎样在给定上下文里执行任务”,那么 Claw 关注的是“多个代理、多个工具、多个任务、多个时间尺度,怎样被持续组织起来”。

管理学家 Henry Mintzberg 把组织的协调机制分成五种,其中最高阶的一种叫“相互调适”(mutual adjustment)——成员之间通过非正式沟通实时协调。 Claws 要做的,本质上就是为一群 agent 建立这种高阶协调机制。行业竞争不再只在模型能力上,也不只在 IDE 内嵌补全上,而会越来越落在多代理运行时与长期编排层。

三个词放在一起,你会看见一条清晰主线:vibe coding 描述的是“代码生成”变轻了;agentic engineering 描述的是“工程师角色”向上移了;Claws 描述的是“代理组织层”开始成为新的竞争焦点。从代码,到工程,到运行时编排——层层递进。


六、旧技术的新生命,与 Builder 的底色

Karpathy 最近还有一个表面“逆流”的判断:他开始更明确地谈 CLI 的价值。

命令行恰恰因为是“legacy technology”,所以对 AI agents 特别友好——它天然就是文本接口,规则相对清晰,输入输出边界明确,自动化历史悠久,代理几乎可以原生使用它。过去十年软件行业偏爱 GUI 和所见即所得,但在 agent 时代,这反而成了劣势。对人友好的界面,不一定对机器友好;对机器友好的界面,往往具备良好的文本可操作性、组合性和可脚本化特征。

这和他在 2025 年 YC 演讲里讲的“Build. For. Agents.”一脉相承。大前提是我们已经进入 Software 3.0 阶段:自然语言成为新的编程界面,软件不再只被人点击,也越来越多地被机器代理调用。最有竞争力的软件,不是只有漂亮 GUI 的软件,而是既能服务人,也能被 agent 稳定调用的软件

于是你发现,很多“旧东西”——CLI、容器、日志、文本配置、简单脚本、明确的 I/O 边界——在这个时代突然重新变得性感。不是因为人类退回过去,而是因为 agent 需要一个可以可靠行动的环境。

这也解释了他对 NanoClaw 的偏爱。NanoClaw 核心引擎只有约 4000 行代码,默认跑在容器里,把“skills”更接近做成配置,追求“最大可分叉性”。这套偏好和他在 microgpt、nanochat 上长期表现出来的审美完全一致:能小就小,能看清楚就看清楚,能 fork 就 fork,能本地跑就别先云端化。

说到 nanochat,它的进展本身就很能说明问题。仓库 README 显示,截至 2026 年 3 月 4 日,在一台 8×H100 节点上达到超过 GPT-2 基线的训练时间已经压到约 2.02 小时,成本约 48 美元(spot 则低至 15 美元左右)。而 2019 年 OpenAI 训练 GPT-2,大约用 32 个 TPU v3 跑了 7 天,估算成本在数万美元量级。成本降幅达数百倍。

这类变化和他对 coding agents 的兴奋不是两条线:一条讲“执行层开始可用”,另一条讲“底层模型实验与迭代的门槛在快速下降”。两者叠加,才构成他“软件工程正在重构”的强烈感受。


七、不要神化,也不要低估

把这些动态串起来后,最常见的误区是走向两个极端。

过度乐观的人会理解成“以后程序员只要讲中文英文就行了”。立刻反弹的人则抓住 agent 的各种错误,得出“这不过是新一轮 hype”的结论。

Karpathy 自己其实给了比这两端都更成熟的位置:他一边说这是二十年来最大的工作流变化,一边又明确说“no need for IDE”之类的狂热和“agent swarm”之类的夸张,现在都还太过头。变化是真的,但宣传语常常跑得比现实更快。

更准确的理解应该是:coding agents 在 2025 年 12 月前后跨过了一个实用阈值,使得“代理式工程”第一次大规模进入主流程。但这个新流程并不是自动稳定的——它需要高度结构化的输入、清晰的上下文和强验证能力,尤其适合那些能够被明确规格化、能够回放日志、能够自动化测试、能够在真实反馈里闭环的任务。

它更像一台能力很强但需要良好工装夹具的机器,而不是一个可以随便丢进去任何模糊需求的魔法盒子。

从团队层面看,这波变化最直接的后果,可能不是“谁先不用写代码”,而是谁先建立起一套适合 agent 工作的工程基础设施:更明确的仓库结构、更完备的测试、更好的日志和可观测性、更严格的权限边界、更可调用的 CLI、更标准化的工具接口。没有这些,agent 只会把原有的混乱放大;有了这些,agent 才可能把人的高层意图快速转成可运行结果。

Karpathy 迷恋的,从来不是无秩序的自动化,而是在良好约束中的高杠杆自治。


结语:一张从底到顶的栈式地图

最后值得记住的,不是某个单独词汇,而是一个三层结构。

第一层是模型层: 更强的推理、代码和工具使用能力,让代理终于“基本可用”。

第二层是 agent 层: 单个代理能够在较长链路中执行、调试、修复、再试。

第三层是 Claw / 编排层: 多个代理、多个工具、多个时间尺度与长期上下文如何被组织起来。

Karpathy 过去几个月几乎把每一层都碰了一遍。于是他的观察不再像零碎感想,而像一份从底到顶逐渐成形的栈式地图。

如果一定要用一句话概括他最近的动态:他不是在宣布“AI 开始替你写代码”,而是在宣布软件生产关系开始被重写。 在旧秩序里,代码是稀缺产出,程序员的价值主要体现在亲自生产代码的能力上。在新秩序里,代码越来越便宜——甚至便宜到会出现他自己担心的那种“slopacolypse”——于是最稀缺的东西开始变成判断力、上下文管理、系统边界意识、测试设计、回滚能力和长期责任归属。

代码仍然重要。但代码不再自动等于价值。

人正在从低层执行中部分抽离,转而负责更高层的意图、组织与责任。而那,才是这轮变化真正的开始。