从泥板到 AI Loop：人类如何发明会发明的机器

智人是地球上唯一一种会不断把自己的判断力、记忆力和劳动搬到身体之外的动物。狮子学不会把捕猎经验写下来传给下一代狮子，蚂蚁的分工写在基因里，几百万年不会改写。只有人类，一次又一次地找到办法，把脑子里那点脆弱又易逝的东西，固化成外部的、可以复制、可以传递、可以被下一个人接手继续运转的结构。

泥板是这样一次固化，账本是又一次固化，实验室是再一次固化，公司是又一次固化，软件系统是又一次固化。今天，AI agent 和它所嵌入的循环系统，正在进行人类历史上最新的一次、也可能是最深的一次固化。这一次，人类固化的不再只是记忆和流程，而是判断本身，以及生成新判断的能力。

这篇文章想讲的，就是这条从泥板到 AI loop 的长链条：人类如何一步步从“使用工具的物种”，走到“发明会发明东西的机器的物种”。这条链条上有三个反复出现的关键词——prompt、harness engineering、loop——它们看起来是这几年才有的技术词汇，实际上，是同一种古老冲动在最新技术条件下的复现：把偶然的、依赖个人天赋的创造，变成可以持续运转、持续进化的系统。

一、泥板与账本：人类第一次把判断力搬出大脑

大约五千年前，两河流域的祭司和商人开始在潮湿的泥板上刻画符号，记录谷物、牲畜和劳役。这不是文学的诞生，而是数据结构的诞生。最早的文字，几乎全部是账目：谁欠谁多少大麦，哪座神庙收了多少羊，哪个工匠该领多少口粮。

这件事看起来平淡，却是一次根本性的跃迁。在此之前，一个部落能协调的规模，取决于首领的大脑能记住多少人、多少承诺、多少恩怨。一旦超过一百多人，纯粹靠记忆维系的信任网络就会瓦解。泥板账本第一次让信息脱离了单个大脑的容量限制，变成可以被反复核对、被第三方审计、被下一任书吏继承的外部记录。人类从此可以协调成千上万互不相识的人，因为大家不再需要都记得住彼此，只需要都相信同一份账本。

这正是本文想强调的第一层意思：账本不是简单的记录工具，它是一套制度。它规定了谁有权记账、什么算作有效凭证、出现纠纷时以谁的记录为准。换句话说，账本第一次把“判断”这件事，从某个人的直觉，变成了一套可以被检验、被复核、被传承的规则。

如果借用后来的语言来描述，泥板账本已经具备了 harness 的雏形：它不是让每个书吏凭感觉记账，而是给所有书吏统一的符号系统、统一的格式、统一的核验流程。个人的判断被约束进一套结构里，结果因此变得可比较、可累积。

而更重要的是，账本催生了最早的“循环”：收成、征税、核账、纠错、修订税制、来年再收——一个不断被现实反馈校正的行政循环。法老的粮仓管理者不是只记一次账就完事，而是年复一年地把误差、亏空、丰歉记录下来，用于调整下一年的征收标准。这是农业帝国版本的“提出假设、观察结果、修正规则”。

从这个角度看，人类很早就发明了循环系统，只是那时候的循环运转得很慢，一圈往往要一整个收成季节，甚至一整个王朝。

二、实验室：把创造变成可重复的程序

如果说账本解决的是“如何协调大规模的人”，那么几千年后在欧洲兴起的实验室，解决的是另一个问题：“如何让发现新知识这件事，不再依赖某个天才的灵光一现，而变成一套任何训练有素的人都能执行的程序。”

在实验室出现之前，知识的进步很大程度上依赖零星的个人洞见，缺乏系统性的验证和复现机制，一个人的发现很容易随着他的去世而失传，或者因为没有被检验而以讹传讹。近代科学革命真正改变游戏规则的，不是某一项具体发现，而是一整套方法论：提出一个可以被证伪的假设，设计一个受控的实验条件，测量结果，与其他人分享数据和步骤，让陌生人可以在完全不认识你的情况下，重复出你的结果。

这套方法论的核心，恰恰是今天说的“harness engineering”的古老版本。科学家不是简单地对着自然界许愿，指望自然给出答案，而是给自己设定极其严格的边界：对照组、双盲、统计显著性、同行评审。这些边界的作用，不是限制创造力，而是让创造力可以被验证、被累积、被他人接力。没有这套边界，一个绝顶聪明的炼金术士留下的，可能只是几条互相矛盾的秘方；有了这套边界，一个普通的研究生也可以在前人基础上，往前推进一小步，而这一小步会被写进下一本教科书。

科学的另一个关键洞察，是把“失败”重新定义了。在实验室的语言里，一次没有得到预期结果的实验，很少被简单地称为浪费，因为它排除了一种可能性，缩小了下一次假设的搜索空间。真正被视为浪费的，是无法归因的失败——你不知道到底是理论错了、条件不对、样本太小，还是仪器有问题。可以归因的失败，是知识；无法归因的失败，才是真正的损耗。

把实验室的逻辑抽象出来，我们会看到一个此后反复出现的结构：假设、实验、测量、解释、修订、再实验。这个结构本身就是一种循环，一种以知识增长为目标的学习系统，而不是单纯的重复劳动。科学之所以能在几百年里积累出远超此前几千年总和的知识，靠的不是某几个天才的密度突然变高了，而是这套循环结构被制度化、被大规模复制到了成千上万个实验室里。

三、公司：发明会发明东西的东西

再往后走，工业革命带来了另一种制度发明，比蒸汽机和纺织机更重要，那就是现代公司。

一台机器可以生产一批产品，但机器本身不会决定生产什么、为谁生产、如何应对市场变化。公司之所以强大，不是因为它拥有某一件专利或某一条生产线，而是因为它是一种可以持续吸纳资源、持续提出商业假设、持续在市场里接受检验、持续淘汰失败方向、并把成功经验制度化的组织。科技界一直流传着一种朴素的说法：一家伟大公司最了不起的产品，往往不是它某一款畅销的具体商品，而是这家公司本身——这个能够一次又一次生产出新商品的系统。

这句话点出了一个此前很少被清楚表达的层级差异。做出一件产品，是一阶创造。做出一个能持续做出产品的组织，是二阶创造。而如果这个组织还能根据市场反馈，不断改进自己发现和验证新产品的方法，那就触及了三阶创造：创造一种能改进自身创造能力的能力。

公司之所以能做到这一点，靠的仍然是前面反复出现的那套结构：市场是实验场，销售数据和用户反馈是测量手段，季度复盘和战略调整是解释与修订，企业文化和流程规范是遗传机制，把有效的做法沉淀进制度，让下一批员工不需要重新踩一遍前人的坑。一家公司真正的护城河，往往不是某个天才员工的头脑，而是这套让平凡个体也能持续产出高质量结果的系统结构。

这也解释了为什么公司是一种极其特殊的历史发明：它是一种“法律拟制”，一种存在于人类集体想象和制度承诺中的实体，却能够比任何单独的人类个体活得更久，能够跨越创始人的生死，持续运转下去。公司教会人类的最重要一课，恰恰是本文的主题：真正稀缺、真正值得投入心力去建造的，不是某一个具体产物，而是那个能不断产出新产物、并且越运转越聪明的系统本身。

四、软件系统：把判断力压缩进代码与规则

信息革命给这条链条添上了新的一环：软件系统。如果说公司是把人类的协作方式制度化，软件则是把人类的判断和流程，压缩进了可以被机器精确执行的规则里。

一段测试代码，本质上是把某种正确性判断固化了下来：这个函数应该在什么输入下产生什么输出，不再需要每次都靠工程师肉眼检查。一条持续集成流水线，本质上是把一整套质量把关的流程固化了下来：不通过测试的代码不能合并，不符合规范的提交会被自动拦截。这些看起来枯燥的工程实践，实际上延续了实验室和公司共同的逻辑：把依赖个人记忆和自觉的判断，变成不依赖任何具体个人、可以被反复执行的制度。

软件工程的这套积累，恰恰为下一次跃迁准备好了地基。因为当人类开始尝试让机器不只是执行固定指令，而是自主生成代码、生成方案、生成内容的时候，第一个迫切的问题就是：如何像管理实验室、管理公司一样，给这个新的“执行者”设定边界、设定测试、设定规范，让它的产出可以被验证，而不是变成一堆无法归因的混乱。

这也是为什么 AI agent 不应该被理解为一个更聪明的文本框。文本框只是接受语言，返回语言；agent 的特殊之处在于，它让语言第一次大规模地接近行动。过去，一个人写下一句话，这句话最多改变另一个人的想法；现在，一句话可以触发脚本、修改代码、调用接口、生成文件、提交部署、查询数据库、安排下一轮任务。语言不再只是描述世界，它开始通过工具链直接插手世界。

这种变化看似技术性，实际上非常古老。官僚体系里的公文、法院里的判决、银行里的转账指令、公司里的审批流，本来也都是“语言变成行动”的机器。区别在于，过去这些机器需要大量人类职员在中间搬运、解释和执行。AI agent 把中间许多环节压缩进了同一个可编排系统里：一句自然语言指令，可以被翻译成一串机器动作；一串机器动作，又可以被测试、日志和版本控制记录下来。

于是，一个新的问题出现了：如果语言开始能够行动，那么人类更需要关心的就不是“这句话好不好听”，而是“这句话被放进什么制度里执行”。同一句“帮我优化策略”，在一个没有边界的环境里，可能意味着过拟合历史数据；在一个有样本外检验、交易成本压力测试和回滚机制的环境里，才可能意味着真正的研究。语言本身不可靠，制度化的语言才可靠。这就是从 prompt 走向 harness，再走向 loop 的深层原因。

五、AI 时代的三级跳：prompt、harness engineering、loop

于是我们抵达了这条历史链条的最新一环。人类第一次拥有了一种既不是人、也不是传统意义上的机器的执行者：它能理解语言，能生成代码、文字、方案，能在给定边界内自主行动。而人类与这个新执行者的关系，几乎完整重演了前面几千年走过的路，只是这一次，压缩到了短短几年之内。

第一步是 prompt。人类对着这个新执行者说一句话，让它生成一段代码、一篇文章、一份方案。这个阶段，人类的角色很像古代对着神谕许愿的求问者：提出一个问题，等待一个答案。这里几乎没有制度，只有一句话和一个回应，产出的质量完全取决于那一次问答的运气。

第二步是 harness engineering。人类逐渐意识到，仅仅换一种问法，并不能持续获得可靠的结果。真正管用的做法，是像实验室给科学家设定实验条件、像公司给员工设定流程规范一样，给这个新执行者搭建一整套受控环境：明确的边界、可用的工具、结构化的上下文、可执行的测试、可核验的数据、清晰的评价标准。这个阶段的关键不再是措辞技巧，而是制度设计——让执行者在一个可校验、可追溯、可重复的环境里工作，而不是自由发挥。

第三步是 loop。人类不再满足于完成单次任务，而是把执行者放进一个持续运转的循环：提出假设，执行实验，获得反馈，修正方案，再次尝试。到了这一步，人类的角色发生了质变，不再只是提需求的求问者，也不再只是搭建工作台的工程师，而变成了实验室的负责人、公司的创始人：负责设定方向、设定判断标准、设定何时停止、设定什么样的结果值得留下。

用一句话概括这三级跳：prompt 是发明一个答案，harness 是发明一个工作台，loop 是发明一个生产系统。而当这套生产系统本身还能根据反馈改进自己发现和验证方案的方式时，人类就已经在发明一台会发明东西的机器了。

六、Loop 不是自动化，而是一套学习系统

这里必须澄清一个常见的误解。很多人一听到循环，立刻联想到自动化：自动跑脚本，自动生成内容，自动执行交易，自动发布文章。这确实是循环的表面特征，却不是它真正的价值所在。

一个只会重复、却不会积累的系统，不叫循环，只是一台不知疲倦的复印机。它每天可以生产大量代码、大量文章、大量策略，却没有留下任何判断，没有更新任何假设，没有淘汰任何错误。这种系统运转得越快，制造的噪音就越多。

真正有价值的循环，本质上是一套学习系统，而不是自动化系统。区分二者的，是六个环节是否完整：有没有清晰的假设——你到底在检验什么；有没有可执行的实验——这一步 AI 让成本变得极其低廉；有没有可靠的测量——没有测量，行动只是行动，不是实验；有没有把测量结果转化为解释——数据告诉你发生了什么，解释告诉你为什么；有没有真正的更新——更新的不应该只是一次性的结果，而应该是产生结果的规则本身；有没有清楚的停止标准——什么时候该继续，什么时候该转向，什么时候该承认此路不通。

这六件事合在一起，才配得上“学习”二字。人类历史上每一次制度性的跃迁——账本、实验室、公司——之所以能持续产出价值，靠的都不是重复本身，而是这套学习结构。AI 的出现，让这套结构第一次可以以极低成本嵌入到几乎任何一个普通人的日常工作里，这才是循环真正值得被认真对待的原因。

七、变异、选择、遗传：进化论作为最贴切的模型

理解循环最合适的模型，不是工厂流水线，而是生物演化。演化需要三个条件同时具备：变异、选择、遗传。少了任何一个，都不会产生真正的进步。

AI 最擅长的，是把变异的成本降到接近于零。过去，一个新想法、一段新代码、一篇新文章，都需要人类耗费大量时间去构思、起草、修改，因此想法本身很贵，一个人一生能尝试的变体极其有限。AI 可以在很短时间里生成十种策略、二十个标题、上百种实现方案，变异从此变得极其廉价。

但变异一旦变得廉价，真正稀缺的东西就转移到了选择上。哪些方案值得保留，哪些桥段真正有效，哪些代码结构可以长期维护，哪些产品功能值得上线——这些判断，AI 可以参与提供信息，却不能替代人类定义标准。选择压力从哪里来，决定了整个系统最终会演化成什么样子。用回测的收益风险比筛选策略，系统就会往稳健的方向演化；只用短期点击率筛选内容，系统就会往猎奇和刺激的方向演化。选择压力本身，才是整个循环里最重要的设计决策。

第三个条件是遗传：有效的经验必须以某种方式被保存下来，传给下一轮尝试，否则每一轮都在从零开始，那不叫积累，只是原地打转。这正是文档、代码库、测试用例、知识卡片、复盘记录存在的意义——它们是这套人造演化系统里的染色体，携带着前几代实验留下的信息，让下一代不必重新踩一遍已经被踩过的坑。

于是循环可以被重新描述为一套小型的演化机制：执行者负责源源不断地制造变异，市场、读者、测试、回测负责提供选择压力，而文档、规则、代码库负责完成遗传。人类站在这套机制的顶端，不是去替代任何一个环节的具体工作，而是去设计整套选择压力应该指向哪里。这正是历史上每一次制度性组织——从神庙的祭司到实验室的主任，再到公司的创始人——真正在做的事情：不是亲自完成每一个具体动作，而是决定什么样的动作会被鼓励，什么样的结果会被留下。

八、价值函数的风险：当指标本身变成陷阱

一台可以持续自我改进的机器，听起来令人振奋，但历史反复证明，这类系统最危险的地方，从来不是执行力不够强，而是它被设定去优化的目标本身出了问题。

这个现象有一个广为人知的经济学规律：一旦某个指标被当成目标本身，它就会失去作为好指标的意义。因为一个足够强大、足够擅长优化的系统，会不知疲倦地朝着那个被设定的方向狂奔，而不会自动停下来反思，这个方向是否还对应着最初想要的东西。

在量化策略里，这个陷阱叫过拟合：一个策略在历史数据里表现完美，往往只是因为它精巧地记住了历史数据里的偶然纹理，回测曲线越漂亮，未来越危险。在内容创作里，这个陷阱表现为对短期情绪指标的过度优化：一味追逐爽点、反转和标题党，短期能钩住注意力，长期却会透支读者的信任。在产品设计里，只优化点击率会牺牲用户的真实收益，只优化留存会诱导上瘾式设计，只优化测试通过率会产生表面正确却难以维护的系统。

这类风险不是 AI 时代特有的新问题，人类历史上因为把手段当成目的而付出惨痛代价的例子并不少见：一味追求账面产量而忽视真实民生，一味追求扩张速度而透支制度根基。这些历史教训指向同一个结构性风险——当执行力越来越强、迭代速度越来越快时，一旦最初设定的方向出现偏差，系统会以更高的效率把偏差放大，而不是自动纠正它。

AI 循环会显著放大这种风险，因为它执行指令的耐心和一致性远超人类，一旦被告知要优化某个可测量的数字，它会以极高的效率朝那个数字奔跑，完全不会因为“这样做是否还符合初衷”而自我怀疑。这正是为什么，在一台会自我改进的机器面前，最重要的部件从来不是它的执行引擎，而是驱动它选择方向的价值函数。人类必须持续追问：这套系统到底在优化什么，它优化的东西是否真的对应着我们真正想要的结果，它是否把容易测量的东西，悄悄替换成了真正重要的东西。

这也正是人类在这套循环里不会被替代、也不应该缺席的位置。执行者可以生成无穷多的可能性，却无法替人类回答“什么才算好”；执行者可以精确优化任何被给定的指标，却无法替人类判断这个指标本身是否值得被优化。

九、从劳动力到制度：人类角色的又一次迁移

如果把这条历史链条拉直来看，会发现一个反复出现的模式：每一次信息网络升级，都会重新分配人类的角色。农业革命把大量人力固定进土地和粮仓，工业革命把大量人力固定进工厂和流水线，而每一次，都有一部分曾经属于人的具体劳动，被重新组织进了更大的制度结构里，个人不再直接生产最终产物，而是维护着让产物持续被生产出来的系统。

AI 循环正在推动这个模式的又一次跃迁，而且这一次跃迁的独特之处在于：过去只有大型组织才能拥有的制度能力，第一次开始下沉到个人层面。

所谓制度能力，过去往往意味着非常沉重的东西：办公室、雇佣合同、财务系统、审批流程、会议、档案、组织文化。一个普通人可以有技能，可以有习惯，可以有野心，但很难拥有真正意义上的制度。因为制度需要许多人共同承认，需要稳定的记录系统，需要反复执行后的沉淀，还需要在个体遗忘、离开或疲惫时继续运转的结构。

AI 改变的不是人类突然不需要组织了，而是组织能力的最小可行规模被压低了。一个人现在可以拥有一个只服务于自己的小型研究部门：AI 负责搜索资料、整理证据、生成假设，脚本负责跑实验，文档负责保存结论。一个人也可以拥有一个小型编辑部：对话产生想法，Codex 写母稿，Cursor 润色，发布系统上线，读者反馈回流到下一次写作。一个人甚至可以拥有一个小型工程团队：agent 写代码，测试系统验收，版本控制记录历史，部署脚本把结果推向线上。

这些“小型组织”未必有法人资格，也没有真实雇员，但在功能上已经具备组织的基本器官：它们有目标，有边界，有生产流程，有质量门禁，有记忆，有反馈，有复盘。它们不是比传统组织更伟大，而是第一次让普通个体可以在很小的尺度上练习组织设计。过去，只有创业者、实验室主任、总编辑和管理者才需要认真思考选择压力、资源分配和流程治理；现在，一个认真使用 AI 的个人也必须开始思考这些问题。

在此之前，一个人能拥有的能力，几乎完全存在于自己的头脑、双手和时间里。你会写代码，是因为你亲手写；你能判断一篇文章的好坏，是因为你亲自读过成千上万篇文章积累出的直觉；你有经验，是因为你亲自踩过坑。这些能力被牢牢锁在具体的个人身体里，无法脱离这个人独立存在，也很难被完整地传递给另一个人。

现在，一个人第一次有能力把自己的一部分判断，外化成可以脱离自己独立运转的结构：写成测试用例，写成评审规则，写成发布前的检查清单，写成一套让循环自动淘汰劣质结果的标准。这意味着，一个人的判断不再只体现在他亲自做出的某一次选择里，而是体现在他所设计的系统如何持续做出选择。他的品味不再只体现在他亲手写的某一篇文章里，而是体现在他所定义的“什么算好文章”这套标准里。

这是一次从劳动力向制度的迁移。过去，制度是组织和机构才配拥有的东西，个人最多只能养成习惯，很难拥有一套可以脱离自己独立运转、还能被继承和复用的创造结构。这一次，个人第一次有机会拥有微缩版的制度能力：一个持续发现和淘汰投资策略的研究流程，一个持续提炼桥段与吸收反馈的创作流程，一个持续把需求转化为可靠代码的工程流程。这些流程不需要宏大，只要具备方向、反馈、记忆和淘汰机制，就已经具备了组织的雏形，而组织，正是人类这个物种自古以来最强大、也最独特的发明。

十、把一次深聊变成一篇文章，再变成一个可复用的技能，这本身就是一次循环

这篇文章走到这里，恰好可以回过头审视自己是怎么产生的，因为这个过程本身，就是文章想要讨论的主题的一次现场演示。

第一圈，是一场对话：有人凭直觉察觉到，自己使用 AI 的方式正在从下达一句指令，转向搭建一整套持续试错的系统，人在其中的角色也在悄悄变化。第二圈，是类比：这种变化很像一个人从学生成长为科研负责人的路径。第三圈，是扩展：它又与公司这种历史发明高度相似，一家伟大公司最重要的产品，往往是它自己这套能持续产出产品的系统。第四圈，是抽象：把具体的观察，提炼成二阶创造、选择压力、价值函数这样可以迁移到任何领域的概念。第五圈，是外化：把讨论整理成一篇完整的文章，交由另一套系统打磨语言，发布到公开的渠道，接受真实读者的检验。

而真正让这件事完成闭环的，是第六圈：把整个流程——如何从一场深聊里提炼思想、如何组织成文章、如何检验、如何发布——沉淀成一套可以被反复调用的技能。这套技能一旦沉淀下来，下一次再出现一场足够有价值的对话时，就不再需要从零摸索，而是直接调用已经跑通的流程，跑完之后，再根据这一次运行中发现的新问题，反过来更新这套技能本身。

这正是循环最本质的味道：一次有价值的思考，不会随着对话窗口的关闭而消失，它会被整理、被验证、被发布、被复用，成为下一轮思考更高的起点，而记录和传递这个过程的方式本身，也在一次次运转中变得更加精炼。这与几千年前泥板上的账目、实验室里的实验记录、公司里沉淀下来的流程手册，在结构上是同一件事，只是这一次，从提出想法到把想法变成可继承的制度，中间的时间被压缩到了几天甚至几小时之内。

十一、结语：重新理解创造，也是重新理解人类的位置

把泥板、账本、实验室、公司、软件系统、AI agent 和 AI 循环并排放在一起看，会发现这不是七个孤立的技术故事，而是同一条脉络的七个阶段：人类不断把判断力从个体的头脑里搬出来，固化成外部的、可以被继承、可以被复制、可以被检验的结构，而每一次固化，都会重新分配一次人类自己在系统里的位置。

写字的人从记忆的看守者，变成了信息的记录者；商人从口头承诺的当事人，变成了账本制度的维护者；工匠从凭手艺吃饭的个体，变成了流水线上的一个环节，又在下一轮里变成了流程和标准的设计者；而在 AI 循环这一阶段，普通人第一次有机会从单纯提出需求的求问者，变成一整套创造系统的架构师。

这套系统可以很小，可以只是几份文档、几段脚本、一套测试、一个发布流程，但只要它具备方向、有反馈、有记忆、有淘汰机制、有清醒的价值判断，它就不再是一次性的产出，而是一个会自己生长的东西。人类历史上真正留存下来的，从来不是某一块泥板上的具体记录、某一次实验的具体结果、某一款产品的具体型号，而是那些让记录、实验和产品得以持续被生产出来的制度本身。

AI 没有改变这条历史规律，只是把建造这类制度的门槛，第一次降到了几乎每个普通人都可以触及的高度。真正的分野，不再取决于谁能让执行者多写几段代码、多生成几篇文章、多跑几次回测，而是取决于谁能提出一个真正值得反复检验的问题，谁能设计出恰当的选择压力，谁能分辨真正的进步和被指标误导的幻觉，谁能把每一次失败转化成下一轮可用的信息，谁能把零散的经验沉淀成可以传承的制度，并且在速度越来越快的循环里，始终守住那个不能被外包出去的判断：这一切，究竟是在朝着我们真正想要的方向前进，还是只是在朝着一个被误认成方向的数字狂奔。

这或许就是这条从泥板延伸到 AI 循环的历史长链，留给今天每一个人的最终提问：不要只问这台机器能替我做什么，而要问，我能和它一起，建成一台什么样的、会不断变得更聪明的创造机器，以及，决定这台机器最终会创造出什么的，究竟是怎样的判断、怎样的品味和怎样的价值。

换句话说，AI loop 的终点不是让人退出历史，而是迫使人重新承担历史上最古老、也最沉重的责任：为自己创造出来的制度，选择一个值得前往的方向。

李文业的思考笔记