当 AI 成为你的同事：Anthropic 内部报告揭示的新工程范式

一、一个反直觉的发现

Anthropic 最近发布了一份报告，叫《How Anthropic teams use Claude Code》。乍一看，这好像是一家 AI 公司在展示自家产品有多好用。但仔细读完，我发现它真正讲的是一件更有趣的事——

软件工程正在从一门“确定性手艺”变成一种“概率性博弈”。

我们过去写代码的逻辑很简单：想清楚，写下来，测一测，上线。每一步都是确定的。但当 AI 深度介入开发流程之后，游戏规则变了。Anthropic 的 RL（强化学习）工程团队在报告里坦诚地说：让 Claude Code 独立完成一个小到中等的 PR，“一次就成”的概率大约只有三分之一。

三分之一。这个数字非常关键。

它意味着你不能像指挥一个靠谱工程师那样指挥 AI——“去把这个功能做了”，然后等着交付。你得换一种完全不同的思路。

Anthropic 自己的 10 个团队，从数据基础设施到法务，从安全工程到增长营销，各自独立地摸索出了一套新方法。把这些方法叠在一起看，你会发现它们指向同一个底层规律。

这篇文章就来讲讲这个规律。

二、老虎机式工作法

Anthropic 的数据科学团队发明了一个绝妙的说法，叫“老虎机式工作法”（slot machine approach）。

做法很简单：你先保存好当前进度（checkpoint），然后让 Claude Code 自由发挥 30 分钟——写代码、跑测试、自我修正。30 分钟后你回来一看：如果结果不错，恭喜你赚到了；如果一团糟，你直接回滚到 checkpoint，重新来一次。

这听起来荒唐。传统工程思维里，你遇到错误应该去修它、去 debug、去逐步逼近正确答案。回滚重来？那不是浪费前面所有的工作吗？

但这恰恰是概率式系统的反直觉真相：当生成器有随机性时，重新开始有时比逐步修补更便宜。

想象你在走迷宫。如果你能看到迷宫全貌，那当然应该逐步修正路线。但如果你蒙着眼睛走，每一步都有随机性，那么当你发现走到死胡同时，最聪明的做法不是原路返回再试一条岔路——而是直接传送回起点，重新走。因为 AI 每次生成的路径不一样，“重新走”有真实概率走出一条更好的路。

RL 工程团队用的也是同一套策略：先让 Claude 一次性跑完整个任务（one-shot），成了就赚到；没成就切换到“协作引导模式”，人在旁边一步一步带。他们甚至把 Claude 常犯的错误记录下来写进文档（Claude.md），比如“不要乱 cd 目录”、“pytest 路径要写对”——下次它就不会犯同样的错了。

这整套东西——checkpoint、回滚、重新尝试、记录错误——不是什么小技巧。它是一种新的工程范式。

三、概率式协作的三根支柱

当我把 10 个团队的做法叠在一起看时，我发现它们虽然各自独立探索，却不约而同地搭建了同一套基础设施。我把它概括成三根支柱：上下文、控制、反馈。

第一根：上下文。 你得告诉 AI 它在哪、该怎么做、有哪些约束。

数据基础设施团队写了一份详细的 Claude.md，里面包含数据管道的依赖关系、上游数据源、dashboard 的对应关系。新人入职时，不用再拉着老员工讲半天——让 Claude 读 Claude.md 就行了。

更妙的是，他们让每次 Claude 工作 session 结束时自动生成总结，然后把总结回写到 Claude.md 里。这意味着这份文档会越来越完善——AI 在使用过程中不断改进自己的“使用说明书”。

设计团队也写了自定义 memory 文件，但内容不一样：“我是设计师，不是工程师，请用小步骤解释每一步改动。”

第二根：控制。 你得确保 AI 搞砸的时候你能回到安全地带。

产品研发团队的规矩是：永远保持干净的 git 状态，频繁做 checkpoint。这不是代码洁癖，这是生存策略。当你让一个概率性系统自由发挥时，“可以随时撤销”就是你最重要的安全网。

数据科学的老虎机工作法也是同一个思路：先 commit，再放手。

第三根：反馈。 你得让 AI 自己知道它做得对不对。

产品研发团队有一个核心实践叫“自给自足循环”（self-sufficient loop）：让 Claude 写完代码后自动跑 build、test、lint。如果测试挂了，它自己修；lint 有问题，它自己改。你不需要一行一行盯着看——让系统自己告诉它哪里错了。

这三根支柱缺一不可。

没有上下文，AI 不知道该做什么，你就会反复纠错。没有控制，你不敢放手，AI 只能做最简单的活。没有反馈，你只能靠人肉 review 来判断质量，那 AI 的速度优势就打了折扣。

很多团队觉得“AI 不够聪明”，其实不是。你缺的不是更强的模型，而是这三根支柱中的某一根。

四、风险分层：一种新的工程治理模型

产品研发团队给出了一个特别清晰的分类法：

外围功能、原型、批量替换、测试生成 → 异步自治：开 auto-accept，让 Claude 自己写、自己跑、自己改，你事后来 review。
核心业务逻辑、关键修复、安全相关 → 同步监督：你在旁边实时盯着，prompt 要非常具体，随时纠偏。

他们甚至有一个真实案例：Claude Code 的 Vim mode 功能，最终实现中大约 70% 来自 Claude 的自治工作。但这 70% 全部是在“外围功能”范畴内。核心逻辑仍然是人写的。

这不是技巧问题，这是治理模型。你用“监督强度”来对冲不确定性——风险越高，人介入越深；风险越低，AI 自主权越大。

安全工程团队更是把这个思路用到了极致。他们让 Claude Code 审查 Terraform plan——“这个变更会做什么？有没有后悔风险？”——安全审批的速度一下子快了很多，研发团队不用再排队等安全团队一行一行 review。但注意：Claude 给出的是“分析”，最终 approve 仍然是人按的按钮。

这就是风险分层的精髓：不是不信任 AI，而是按风险等级分配信任。

五、被严重低估的三件事

读完 10 个团队的实践，有三件事被严重低估了。

第一件：截图的价值。

数据基础设施团队排查 Kubernetes 问题时，直接把云控制台的截图喂给 Claude Code。设计团队和法务团队也大量使用“截图→反馈→迭代”的循环。

这件事被低估了。对于很多“界面/状态/配置”类问题，截图比文字描述快 10 倍，也准 10 倍。你不需要费劲把一个 dashboard 的状态用文字翻译出来——贴张图就行了。视觉输入让“人与 AI 对齐”的成本大幅降低。

第二件：组织记忆的工程化。

数据基础设施把 session 总结回写文档。安全团队把散落在各处的知识压缩成 runbook。增长营销团队甚至搭了一套“实验记忆系统”——上一轮广告测试的结果会自动传递给下一轮生成，形成自我改进的闭环。

这些做法共同指向一个结论：把组织经验写成机器可消费的形式，模型才会越用越好，团队才会越用越一致。 否则 AI 永远只是“个人的随机助手”，无法规模化。

第三件：非技术岗位的“跨界”。

增长营销团队只有一个人。这个人不是工程师。但他用 Claude Code 写了 Google Ads 自动化脚本、Figma 批量变体插件、Meta Ads 分析工具。文案制作从 2 小时降到 15 分钟，创意产出提升 10 倍，一个人像一个小团队一样运作。

法务团队更厉害——一位律师用 Claude Code 在一小时内做出了一个预测文本加语音输出的辅助沟通应用，帮助有语言障碍的家人。

产品设计师也不再只做“视觉微调”了。他们开始直接修改状态管理逻辑、梳理 error state、全站替换合规措辞——这些过去都要找工程师才能做的事。

这意味着 Claude Code 在组织里扮演的角色，不是“更强的 IDE”，而是一个翻译层——它把不同角色的意图（业务的、设计的、合规的）翻译成可执行的代码变更。这会改变“谁能做什么”的边界。

六、真正贵的是“上下文税”

API 团队说了一句很精辟的话：Claude Code 最大的价值不是“帮我写代码更快”，而是“帮我省掉了把代码片段搬到另一个窗口、再解释半天背景”的那段时间。

这句话点出了一个被忽视的真相：在大组织里，真正昂贵的不是写代码的速度，而是“上下文税”。

什么是上下文税？就是你为了理解一件事所付出的所有隐性成本——

切换到一个陌生的子系统，要读一个下午的代码才能开始动手
轮岗到新团队，要好几周才能有效贡献
每次提 bug 要把前因后果解释一遍
跨团队协作时反复对齐上下文

Inference 团队说，过去理解一个 ML 概念要 Google 搜索加读文档一小时，现在问 Claude 只要 10-20 分钟，研究时间降低了 80%。安全工程师说，过去手动扫代码定位问题要 10-15 分钟，现在 5 分钟搞定。

这些看起来是“个人效率提升”，但放到组织层面就不一样了：当上下文税降低，跨界协作的摩擦也跟着降低。 新人上手更快，轮岗更顺滑，跨团队求助减少——这些复利效应远比“单次写代码快 20%”更有价值。

七、一种张力

法务团队在报告最后说了一段意味深长的话。他们一方面鼓励大家分享不完美的原型——“因为原型会激发跨部门创新”；另一方面又警告说，MCP 深度集成的安全影响不容小觑，“合规工具要跟上能力扩张的速度”。

这不是一个孤立的担忧。它指出了未来几年很多组织都会遇到的真实矛盾：

当 AI 把“做事”的门槛降到足够低，每个部门都能直接连到系统和数据。这是创新的巨大加速器——也是风险扩散的巨大加速器。

过去，“不是工程师所以碰不了系统”本身就是一道天然防火墙。现在这道墙正在消失。数据基础设施团队建议敏感数据场景用 MCP server 代替直接 CLI，以便做权限和审计控制。法务强调要给非技术用户设定“更严格的安全默认值”。

能力越强，治理就越不能停留在“提醒大家小心”。它必须工程化——最小权限、审计日志、隔离环境、审批门槛。

这是 AI 民主化的代价。也是不得不付的代价。

八、这份报告真正在说什么

让我把这篇文章的核心论点串起来——

Anthropic 10 个团队的实践，表面上是“我们怎么用 Claude Code 的”，底层其实是一个范式转移的缩影：

软件工程从确定性走向概率性。 你不能指望 AI 每次都对，但你可以设计一个“从不确定性中持续获利”的流程——checkpoint、回滚、重试。这和传统工程直觉相反，但在概率系统里经常成立。
生产力提升的杠杆点在于“三闭环”（上下文、控制、反馈），不在于模型本身。很多人抱怨“AI 不够好”，其实是缺了其中一环。
组织效率的核心瓶颈在于上下文税，不在于代码产出速度。 AI 真正值钱的地方，是把跨角色、跨项目、跨学科的摩擦成本压低。
AI 正在把“谁能做什么”的边界重新画一遍。 非技术岗位能写代码，设计师能改状态管理，一个人能像一个团队。但这意味着权限、审计和安全机制必须同步升级。
组织记忆必须工程化。 Claude.md、runbook、实验日志——把组织经验变成机器可消费的形式，是 AI 工具从“个人提效”迈向“团队规模化”的关键一步。

这份报告最大的价值不在于展示了哪些酷项目。它展示的是一种新的协作方式：把 AI 当成一个概率式的合作伙伴，用工程手段（而不是美好愿望）把它的不确定性变成可控的收益。

这才是“AI 改变工作”的真正意思。

李文业的思考笔记