从vibe coding到Claws：Karpathy在2026年初到底看见了什么

风格参考：万维钢（《精英日课》作者）—— 跨学科引证，框架式拆解，加粗关键洞察，用数据和类比交叉验证每个论点；局部借用 Paul Graham 的短句节奏感。

引子：追 Karpathy，追的不是热词

如果你只是偶尔刷到 Andrej Karpathy 的名字，你可能觉得他就是那个特别会造词的人——“Software 2.0”“vibe coding”，每隔一阵蹦出一个能传播的短语。

这个印象不算错，但严重不够。

Karpathy 真正厉害的地方，从来不是“他造的词是不是永远正确”，而是他往往能在一个拐点刚刚到来、行业里大多数人还只有朦胧感觉的时候，先把那个拐点压缩成一句能记住、能传播、能继续推演的话。这是一种非常稀缺的能力：把模糊的体感变成清晰的公共语言。

过去如此——从“Software 2.0”到“vibe coding”。现在也如此——从“agentic engineering”到“Claws”。

2025 年 12 月到 2026 年 2 月之间，他的更新不只是多了几个新名词。如果你把他这几个月在 X 上的短帖、GitHub 上的新项目、以及零星访谈串起来看，会发现一张越来越清晰的地图：程序员工作的重心正在整体上移——从手写代码，到组织上下文、分派任务、设计验证、审查结果，再到多 agent 系统的编排。

这不是一条线索，而是一整条主线。下面我们一层一层拆。

一、底盘：2025 年末那篇综述里埋下的判断

要读懂 Karpathy 在 2026 年初的兴奋，得先回到 2025 年 12 月 19 日他发的那篇《2025 LLM Year in Review》。那是他至今最后一篇长文，也是后来很多判断的总纲。

里面有两个关键观察。

第一个：他不再把 LLM 看成“动物”，而更像“幽灵”。 一种有明显能力、不均匀智能、又带着强烈“锯齿感”的系统。它在某些维度上超过人类，在另一些维度上又脆弱得离谱。这个隐喻很重要，因为它决定了他后来如何看待 coding agents——它们不是成熟员工，而是某种需要被召唤、被约束、被分派、被反复校验的非人式智能。

第二个：像 Cursor 这样的产品，揭示的不是“更好补全”的小升级，而是一整层新的 LLM 应用范式。 这一层的关键不只是模型本身，而是上下文工程、编排、应用专用 GUI、自治程度滑杆。真正有价值的东西不在“会不会生成几行代码”，而在于能不能把模型置于一个合适的操作环境里，让它带着足够上下文、工具、权限和反馈循环去工作。

他还专门谈到 Claude Code，把它视为第一个真正让他感到“AI 住在你电脑上”的东西。他甚至直言，OpenAI 当年把 Codex 的优先级顺序弄反了——先去做云端容器里跑的编码系统，而不是先做一个真正运行在开发者本地环境里的 AI 助手。

这句话在 2026 年初回头看，含义比当时更大。因为他后来对本地 agent、CLI、NanoClaw、“被小幽灵附身的设备”的兴趣，根全埋在这里。

二、从谨慎到震动：一个原本不全信 agent 的人改口了

要理解这波变化的分量，必须记住一件事：Karpathy 在几个月前并没有这么乐观。

2025 年 10 月，他在一次公开对谈里谈“year of agents”时，反而相当保守。他给 agent 下了一个更严格的定义：不是偶尔能跑个 demo 的系统，而是像一个实习生甚至员工一样，能在复杂环境中长期独立完成任务。按这个标准，他当时的判断是——真正的 agent 可能还需要大约十年。

他甚至点名说，coding agents 当然已经能做不少样板工作，但对 nanochat 那种“智力密度高、精度要求高”的仓库，他不觉得 agent 已经足够好。

这段话今天回看极其重要。它说明 Karpathy 最近的兴奋，不是“逢新必吹”的兴奋，而是在原本谨慎的基线之上发生了体感性变化。 如果连一个原本相对怀疑的人，都在 2025 年 12 月到 2026 年 2 月之间持续改口，那么这波变化就值得认真对待。

转折开始于一种“落后感”。

2025 年 12 月 26 日，他发了一条动态：自己从没像现在这样觉得在编程这件事上“落后了”。后面跟着一个判断：程序员的职业正在被“dramatically refactored”。如果能把过去一年里新出现的那些东西真正串起来用，自己的效能可能会强十倍。

这不是对单点能力的赞叹，而是对一个新抽象层突然成形的惊讶。

他列举的新对象更有意思：agents、subagents、prompts、contexts、memory、modes、permissions、tools、plugins、skills、hooks、MCP、LSP、slash commands、workflows……这串名词像一个杂乱工具箱，但他想表达的恰恰是：软件工程的前台对象已经变了。程序员不再只是面对“代码文件 + 编辑器 + 编译器”，而是开始面对一整套由代理、上下文、记忆、权限、工具协议和工作流组成的新运行环境。

用一句话说：编程活动的基本单位正在从“写代码”转向“调度智能”。

三、工作流翻转：两个月内的“相变”

2026 年 1 月 26 日左右，Karpathy 发出了一串“random notes from Claude coding”。这是理解他最近几个月最核心的一手材料。

里面最关键的一句：他自己的工作流在短短两个月里，从 80% 手写/自动补全 + 20% agents，迅速翻转成 80% agents + 20% 修改收尾。 他还说，自己现在“mostly programming in English”。

这不是修辞游戏。这是在描述劳动重心的真实移动。

物理学里有一个概念叫“相变”——水从液态到固态的转变不是匀速发生的，而是在温度到达某个临界点后突然切换。Karpathy 这一轮描述更像相变而不是渐变：前面很长一段时间，coding agents 都像不稳定的实验玩具，能偶尔惊艳，却无法可靠纳入主流程；到了 2025 年 12 月前后，某些模型能力、工具链和使用方式叠加到一起，突然跨过了可用阈值，从“演示级”变成“工作级”。

他甚至直接说，这是他大约二十年编程生涯里最大的工作流变化，而且几乎是在几周之内发生的。

翻译成人话：过去你在编辑器里“写”；现在你越来越像在给一批高智力但不稳定的实习生“分任务”。 你要提供目标、上下文、边界、测试与回滚机制，然后等它交付，再做判断、审阅和修补。代码依然重要，但它不再是程序员最稀缺的产出。真正变得更稀缺的，是把问题说清楚、把执行过程包起来、把结果验明白的能力。

四、新的错误谱系，与为什么仍然是巨大净提升

Karpathy 没有把这件事描写成完美自动化。恰恰相反。

他对 coding agents 的问题说得非常具体：过去人类手写代码时，常见错误往往是语法型、低级型的；而现在错误越来越多地变成更微妙的概念性错误——模型整体思路听起来对、代码也能跑，但在架构边界、业务假设、隐含约束和权衡取舍上出现偏差。这种错误比拼写错误更危险，因为它们更像“看起来很合理的误导”。

他点出了一组极有代表性的 agent 失真：

擅自做假设，不主动请求澄清。
不主动暴露上下文中的冲突和 tradeoff。
过于顺从、过于“sycophantic”——几乎不会像一个好同事那样在关键地方顶回来。
喜欢过度工程化：膨胀抽象层、堆 API、留下死代码。

认知科学家 Gary Klein 研究过专家决策，发现优秀专家最重要的能力之一是**“及时发出异议”——在团队即将走上错误路径时主动喊停。LLM 恰恰缺失这种能力。它的危险不只是“笨”，而是“太会顺着你往前跑”，以至于它在错误方向上也能表现出极强执行力。“流畅输出”被误判成“正确理解”——这是 agent 时代最隐蔽的风险。**

但有意思的是，正是在列完这么多毛病之后，Karpathy 仍然给出一个非常明确的判断：这是净巨大提升，而且他已经很难想象再回到纯手写的旧模式。

这个结论一开始看似矛盾，但其实非常合理。原因在于，coding agents 真正带来的不只是把原有流程加速 20%，而是让一些原本“不值得做”“懒得做”“不会做”的事情第一次进入了可行区间。

他特别强调了一个人类很难复制的维度：tenacity——韧性与持续折腾的能力。 人会累、会烦、会因连续碰壁而气馁。Agent 不会。它可以在 SSH、依赖、部署、服务、日志、回归测试之间一遍遍试，直到某个长链条被打通。他举过一个具体例子：让 agent 在本地机器上一路完成登录、配 key、跑 vLLM、下载并 benchmark 模型、起服务、做 dashboard、写 systemd、回传报告，整个过程约三十分钟。

经济学家 Tyler Cowen 有一个判断：新技术真正的威力往往不是“让老任务更快”，而是“让新类别的任务变得可行”。 Karpathy 的体验完美印证了这一点——提升不只体现在老任务的吞吐量上，也体现在你愿意探索的任务空间变大了。许多过去得压箱底几周的想法，开始可以在几个晚上里先弄出原型。

五、三个词的递进：从代码到编排

外界最熟悉 Karpathy 的流行语，也许还是“vibe coding”。那个词之所以会火，是因为它精准描述了第一波大众体验：你不再逐字逐句写代码，而是带着一种半即兴、半对话式的感觉，让 AI 帮你把东西凑出来。它标记了一个文化门槛：从“代码必须由程序员写”到“代码可以由会说需求的人协作生成”。

但到了 2026 年初，Karpathy 显然觉得这个词不够了。

原因很简单：当工具从“你随便聊聊，它给你拼出个小玩意儿”进化到“它能在数十分钟里持续完成长链条工程任务”，工作的本质就变了。此时最大的挑战不再是“敢不敢把手放开”，而是如何设置上下文、分解子任务、选择工具、调权限、看日志、做验证、控回滚、管并行。这些工作已经超出了“凭 vibe 玩一玩”的层面，进入了一种需要方法论、经验和审美的工程活动。

所以他开始用**“agentic engineering”**。这个词要强调两层意思：一层是“agentic”——你并不是 99% 时间都在直接写代码，而是在调动代理执行；另一层是“engineering”——这不是完全无门槛的自动化，反而需要更高层次的专业判断、创造性约束和科学式验证。

Karpathy 不是在宣布“工程师不重要了”，而是在说：工程师的重要性正在上移，且形式正在变化。 写代码本身变便宜了，高质量地组织代码生成与验证变贵了。

然后到了 2 月下旬，他又把视线往上抬了一层——“Claws”。

他专门买了一台 Mac mini 来折腾 Claws。这个动作本身很有象征意味：他不是只在抽象层面谈概念，而是真的把一台物理机器当成实验场，去想象“在个人硬件上常驻的 agent 编排系统”会长什么样。

Karpathy 对 Claws 的定义很清楚：它是叠在 LLM agents 之上的新层，处理的不是单次回答，而是 orchestration、scheduling、context、tool calls、persistence。如果说单个 coding agent 解决的是“一个代理怎样在给定上下文里执行任务”，那么 Claw 关注的是“多个代理、多个工具、多个任务、多个时间尺度，怎样被持续组织起来”。

管理学家 Henry Mintzberg 把组织的协调机制分成五种，其中最高阶的一种叫“相互调适”（mutual adjustment）——成员之间通过非正式沟通实时协调。 Claws 要做的，本质上就是为一群 agent 建立这种高阶协调机制。行业竞争不再只在模型能力上，也不只在 IDE 内嵌补全上，而会越来越落在多代理运行时与长期编排层。

三个词放在一起，你会看见一条清晰主线：vibe coding 描述的是“代码生成”变轻了；agentic engineering 描述的是“工程师角色”向上移了；Claws 描述的是“代理组织层”开始成为新的竞争焦点。从代码，到工程，到运行时编排——层层递进。

六、旧技术的新生命，与 Builder 的底色

Karpathy 最近还有一个表面“逆流”的判断：他开始更明确地谈 CLI 的价值。

命令行恰恰因为是“legacy technology”，所以对 AI agents 特别友好——它天然就是文本接口，规则相对清晰，输入输出边界明确，自动化历史悠久，代理几乎可以原生使用它。过去十年软件行业偏爱 GUI 和所见即所得，但在 agent 时代，这反而成了劣势。对人友好的界面，不一定对机器友好；对机器友好的界面，往往具备良好的文本可操作性、组合性和可脚本化特征。

这和他在 2025 年 YC 演讲里讲的“Build. For. Agents.”一脉相承。大前提是我们已经进入 Software 3.0 阶段：自然语言成为新的编程界面，软件不再只被人点击，也越来越多地被机器代理调用。最有竞争力的软件，不是只有漂亮 GUI 的软件，而是既能服务人，也能被 agent 稳定调用的软件。

于是你发现，很多“旧东西”——CLI、容器、日志、文本配置、简单脚本、明确的 I/O 边界——在这个时代突然重新变得性感。不是因为人类退回过去，而是因为 agent 需要一个可以可靠行动的环境。

这也解释了他对 NanoClaw 的偏爱。NanoClaw 核心引擎只有约 4000 行代码，默认跑在容器里，把“skills”更接近做成配置，追求“最大可分叉性”。这套偏好和他在 microgpt、nanochat 上长期表现出来的审美完全一致：能小就小，能看清楚就看清楚，能 fork 就 fork，能本地跑就别先云端化。

说到 nanochat，它的进展本身就很能说明问题。仓库 README 显示，截至 2026 年 3 月 4 日，在一台 8×H100 节点上达到超过 GPT-2 基线的训练时间已经压到约 2.02 小时，成本约 48 美元（spot 则低至 15 美元左右）。而 2019 年 OpenAI 训练 GPT-2，大约用 32 个 TPU v3 跑了 7 天，估算成本在数万美元量级。成本降幅达数百倍。

这类变化和他对 coding agents 的兴奋不是两条线：一条讲“执行层开始可用”，另一条讲“底层模型实验与迭代的门槛在快速下降”。两者叠加，才构成他“软件工程正在重构”的强烈感受。

七、不要神化，也不要低估

把这些动态串起来后，最常见的误区是走向两个极端。

过度乐观的人会理解成“以后程序员只要讲中文英文就行了”。立刻反弹的人则抓住 agent 的各种错误，得出“这不过是新一轮 hype”的结论。

Karpathy 自己其实给了比这两端都更成熟的位置：他一边说这是二十年来最大的工作流变化，一边又明确说“no need for IDE”之类的狂热和“agent swarm”之类的夸张，现在都还太过头。变化是真的，但宣传语常常跑得比现实更快。

更准确的理解应该是：coding agents 在 2025 年 12 月前后跨过了一个实用阈值，使得“代理式工程”第一次大规模进入主流程。但这个新流程并不是自动稳定的——它需要高度结构化的输入、清晰的上下文和强验证能力，尤其适合那些能够被明确规格化、能够回放日志、能够自动化测试、能够在真实反馈里闭环的任务。

它更像一台能力很强但需要良好工装夹具的机器，而不是一个可以随便丢进去任何模糊需求的魔法盒子。

从团队层面看，这波变化最直接的后果，可能不是“谁先不用写代码”，而是谁先建立起一套适合 agent 工作的工程基础设施：更明确的仓库结构、更完备的测试、更好的日志和可观测性、更严格的权限边界、更可调用的 CLI、更标准化的工具接口。没有这些，agent 只会把原有的混乱放大；有了这些，agent 才可能把人的高层意图快速转成可运行结果。

Karpathy 迷恋的，从来不是无秩序的自动化，而是在良好约束中的高杠杆自治。

结语：一张从底到顶的栈式地图

最后值得记住的，不是某个单独词汇，而是一个三层结构。

第一层是模型层： 更强的推理、代码和工具使用能力，让代理终于“基本可用”。

第二层是 agent 层： 单个代理能够在较长链路中执行、调试、修复、再试。

第三层是 Claw / 编排层： 多个代理、多个工具、多个时间尺度与长期上下文如何被组织起来。

Karpathy 过去几个月几乎把每一层都碰了一遍。于是他的观察不再像零碎感想，而像一份从底到顶逐渐成形的栈式地图。

如果一定要用一句话概括他最近的动态：他不是在宣布“AI 开始替你写代码”，而是在宣布软件生产关系开始被重写。 在旧秩序里，代码是稀缺产出，程序员的价值主要体现在亲自生产代码的能力上。在新秩序里，代码越来越便宜——甚至便宜到会出现他自己担心的那种“slopacolypse”——于是最稀缺的东西开始变成判断力、上下文管理、系统边界意识、测试设计、回滚能力和长期责任归属。

代码仍然重要。但代码不再自动等于价值。

人正在从低层执行中部分抽离，转而负责更高层的意图、组织与责任。而那，才是这轮变化真正的开始。