风格参考:Steven Johnson(《伟大创意的诞生》《我们如何走到今天》作者)—— 从具体故事出发,用“相邻可能”和“液态网络”等框架串联技术创新的涌现逻辑。
一、屋顶上的摄像头
2025年深秋的某个傍晚,英格兰中部一座普通联排别墅的屋顶上,一台价值不到四十英镑的网络摄像头正默默对着西边的天空。它已经在那里挂了好几个月,最初是房主为了监控花园里的狐狸而装的——英格兰的城郊狐狸是出了名的胆大妄为,它们会在夜里翻倒垃圾桶,把鸡骨头拖得满草坪都是。但现在,这台摄像头有了一个完全不同的使命。
每当天空出现特定的色彩组合——比如日落时分那种从橘红渐变到紫罗兰的壮丽光谱,或者暴风雨前云层被阳光从下方照亮时的那种不真实的金色——这台摄像头就会自动拍下一张照片。几秒钟之后,照片会出现在一个家庭群聊里,附带一段由AI生成的简短文案,有时候是一句诗意的描述,有时候是一个关于大气光学的冷知识,有时候只是一句“快出来看天空”。
让这一切发生的,不是某个专业的智能家居系统,不是某个需要订阅才能使用的云服务,也不是房主自己写的复杂代码。让它发生的,是一条聊天消息。
房主在他的 Telegram 私聊窗口里,用自然语言描述了他想要的东西:“帮我监控屋顶摄像头,当天空特别好看的时候自动拍照,然后发到家庭群里,配一段文案。”然后,一个叫做 OpenClaw 的东西接管了剩下的一切。
这个故事之所以值得讲述,不是因为它有多么惊天动地。恰恰相反,它值得讲述,正是因为它如此平凡,如此日常——一个普通人,用一个普通的聊天软件,驱动了一个由摄像头、AI模型和消息推送组成的小型自动化系统。这种平凡本身,就是一场深刻变革的信号。 就像1876年贝尔打出第一通电话时说的那句著名的“沃森先生,请过来,我想见你”——这句话的内容无关紧要,真正重要的是,声音第一次穿越了电线。
今天,我们正在目睹类似的时刻:意图第一次穿越了聊天窗口,在另一端变成了行动。
二、相邻可能的门
在《伟大创意的诞生》里,我花了很长时间讨论一个来自理论生物学家斯图亚特·考夫曼的概念——“相邻可能”(adjacent possible)。考夫曼用这个概念来描述生命化学的一个基本特征:在任何给定的时间点,宇宙中可能出现的分子组合是有限的,但每当一种新的分子出现,它就像打开了一扇门,门后面是一组新的可能的组合,而这些新组合又各自通向更多的门。生命的历史,就是这些门不断被打开的历史。
技术的历史也是如此。蒸汽机打开的那扇门通向了铁路,铁路通向了标准时间,标准时间通向了全球协调。 但这些门不是凭空出现的——它们总是出现在已有技术的边缘地带,出现在两种或三种已经存在的东西相互碰撞的地方。
OpenClaw 之所以引起了我的注意,不是因为它的任何单一功能有多么革命性。AI代理(agent)不是新闻,聊天机器人不是新闻,本地运行的开源软件更不是新闻。但当这些已经存在的东西以一种特定的方式被组合在一起的时候,一扇通向相邻可能的门就被推开了。
让我解释一下这扇门是什么。
过去两年,大语言模型的能力飞速进化。它们能理解自然语言,能推理,能写代码,能调用工具。但对于绝大多数普通人来说,这些能力被锁在了特定的界面里——你得打开一个网页,或者一个专用的App,进入一个专门的对话窗口,才能触及这些能力。这就像19世纪中期的电报:技术本身已经足够强大,但你必须去电报局,把你的消息交给一个专业的电报员,由他翻译成摩尔斯电码,再通过电线发出去。电报改变了世界,但它从未真正进入普通人的日常生活——直到电话把“发送远程消息”这个行为从专业场所搬到了每个人的家里。
OpenClaw 做的事情,某种程度上就是电话对电报做的那件事。 它不是又造了一个AI聊天窗口,而是把AI的能力搬进了你已经每天都在用的聊天窗口——WhatsApp、Telegram、Discord、Slack、Teams,随便哪一个。你不需要学习新的工具,不需要切换到新的应用,不需要改变任何习惯。你只是发了一条消息,只不过这次,消息的接收者不是一个人,而是一个能够理解你的意图并将其转化为行动的系统。
这就是相邻可能的魔力:当“发消息”这个全世界最普遍、最低摩擦的数字行为,与“AI代理执行任务”这个全新的技术能力相遇时,它们之间的那扇门就打开了。 门后面是一个我们还在探索的空间——一个聊天窗口不再只是传递文字的管道,而是变成了一个行动的操作系统的空间。
三、一个英国家庭的超市自动驾驶
让我把镜头切到另一个场景。
英格兰某座城市,一个有两个孩子的家庭。每周日晚上,这个家庭的其中一位家长都要完成同样一套令人疲惫的流程:打开 Tesco(英国最大的连锁超市)的网站,浏览本周的促销信息,根据这周的餐饮计划挑选食材,加入购物车,核对常购清单,选择一个配送时段,确认订单,输入支付信息。整个过程通常需要四十分钟到一个小时,而且每一步都充满了令人恼火的小决策——这个酸奶是不是换包装了?上次买的那个意面酱还有货吗?周三的配送满了,周四早上行不行?
有一天,这位家长在 Telegram 上给 OpenClaw 发了这样一条消息:“帮我去 Tesco 网站,按照这周的餐饮计划购物,优先选常购商品,预订最近的配送时段,下单前让我确认一下。”
然后,一些有趣的事情发生了。
OpenClaw 启动了它内置的浏览器工具——不是调用什么 Tesco 的API(Tesco并没有开放这样的API给普通消费者),而是像一个人类用户一样,打开了一个真实的浏览器窗口,导航到 Tesco 的网站,登录账户,然后一步一步地完成了整个购物流程。它读取了之前存储在工作区里的餐饮计划和常购清单(这些都是普通的 Markdown 文件),把它们翻译成了一系列具体的搜索和点击操作。在选择配送时段的时候,它挑了最早的可用选项。在所有东西都加入购物车之后,它把订单摘要发回了 Telegram,附带一个“确认下单”的按钮。
家长看了一眼清单,把西兰花换成了芦笋(孩子们上周说不想再吃西兰花了),然后点了确认。订单完成。整个过程,从发消息到确认,不到五分钟。
这个故事的核心洞察不在于“AI帮你买菜”这件事本身,而在于它揭示了一个被严重低估的事实:在2026年的互联网上,绝大多数服务仍然没有开放API。 你的银行、你的超市、你孩子学校的缴费系统、你的水电燃气账单、你的医院预约系统——它们都有网页界面,但没有供普通用户调用的编程接口。在过去,这意味着自动化的大门对这些服务是关闭的。你只能亲自去点那些按钮。
OpenClaw 的浏览器工具,实质上是把网页本身变成了一个通用API,把浏览器变成了一个万能适配器。这不是一个新想法——网页抓取和浏览器自动化已经存在了几十年。但过去,你需要编写精确的脚本来应对每一个网站的具体布局,而且一旦网站改版,脚本就会失效。现在,有了大语言模型的理解能力,浏览器自动化第一次变得真正“智能”了——代理能够理解页面上的内容,能够应对布局变化,能够在遇到意外情况时做出判断。
这是另一扇相邻可能的门:当AI的语言理解能力与浏览器自动化相结合,整个万维网——而不仅仅是那些开放了API的服务——都变成了可以被代理操作的对象。 有人在 OpenClaw 的社区里用了一个我很喜欢的比喻:“网页就是通用API,浏览器就是万能适配器。”这句话听起来简单,但它的含义是深远的。它意味着,AI代理的能力边界不再由API的可用性决定,而是由网页的可达性决定——而在今天的互联网上,几乎一切都可以通过网页访问。
更值得注意的是 OpenClaw 的设计哲学中对“可控自动驾驶”的强调。在 Tesco 购物的例子里,代理并没有从头到尾自行决定一切——它在关键节点(下单确认)停了下来,把决策权交还给人类。这就像特斯拉的辅助驾驶系统:大部分时候它在自动运行,但方向盘上始终有一双手。你可以在任何时候接管,可以在任何节点修改,可以随时叫停。这种“人在回路中”的设计,不是技术上的妥协,而是信任建立的必经之路。
四、酒窖里的九百六十二瓶
如果说 Tesco 的故事展示了 OpenClaw 在日常消费领域的相邻可能,那么接下来这个故事则展示了另一种可能性——个人化工具的即时生成。
在 OpenClaw 的一个社区讨论中,有人分享了这样一个案例:一位葡萄酒收藏爱好者,拥有一个规模可观的私人酒窖,里面存放着九百六十二瓶来自世界各地的葡萄酒。长期以来,他一直用一个Excel表格来管理这些藏酒——产区、年份、品种、购入价格、最佳饮用期、存放位置,等等。但Excel表格有一个根本性的问题:它是一个被动的数据容器,你必须主动去查询它,而且它无法理解你的意图。当你想知道“今晚吃烤羊排,应该开哪一瓶”的时候,Excel无法给你答案。
这位收藏者在 Telegram 上向 OpenClaw 发了一条消息,大意是:“帮我建一个酒窖管理系统,把这个CSV文件导入进去。”然后,OpenClaw 做了一件在传统软件开发流程中需要数天甚至数周才能完成的事情:它在几分钟之内,在本地创建了一个完整的酒窖管理“技能”(skill)。
这里需要解释一下 OpenClaw 的“技能”(Skills)系统。在 OpenClaw 的架构里,技能是一种可复用的能力模块——本质上就是一个文件夹加上一个名为 SKILL.md 的描述文件。这个描述文件用自然语言定义了技能的功能、触发条件和执行逻辑。技能可以调用各种工具,可以访问本地文件,可以与其他技能协作。更重要的是,技能可以被分享——通过一个叫做 ClawHub 的公共注册中心,任何人都可以搜索、安装、更新和发布技能。
那位酒窖收藏者的技能被创建出来之后,他就可以在聊天窗口里用自然语言查询自己的藏酒了。“这个月有哪些酒到了最佳饮用期?”“波尔多的酒还剩多少瓶?”“今晚吃海鲜,推荐一瓶白葡萄酒。”这些问题都能得到基于他的实际藏酒数据的精准回答。
这个案例让我想起了生物学里的一个概念——“外骨骼”。昆虫的外骨骼不是一个万能的结构,它是为每一种昆虫的特定生活方式量身定做的。甲虫的外骨骼和蝴蝶的外骨骼完全不同,因为它们面对的环境挑战完全不同。OpenClaw的技能系统,本质上是一种让每个人都能按需生成自己的“数字外骨骼”的机制。 你的需求是独特的,所以你的工具也应该是独特的——而现在,定制工具的成本被压缩到了一条聊天消息的距离。
这里面隐藏着一个关于软件进化方式的深刻转变。传统上,软件是由专业开发者为大量用户构建的通用产品——你去应用商店搜索“酒窖管理”,找到一个别人开发的App,然后适应它的逻辑。但在 OpenClaw 的世界里,这个流程被倒转了:不是你适应软件,而是软件适应你。 用户描述需求,代理生成工具,工具变成可分享的技能。这不是传统意义上的“编程”,但它确实是一种创造——一种由自然语言驱动的、即时的、个人化的创造。
而当这些个人化创造通过 ClawHub 被分享出去的时候,一种新的生态就开始涌现。某个人为自己创建的酒窖管理技能,可能会被另一个收藏者发现、安装、修改、增强,然后再分享回去。这是一个典型的“液态网络”(liquid networks)的场景——不同的想法和工具在一个足够开放、足够流动的环境中碰撞、混合、进化。
五、液态网络与神经系统
说到液态网络,让我换一个角度来看 OpenClaw 的架构设计。
在我的研究中,“液态网络”是一个用来描述创新最容易发生的环境的概念。想象一下珊瑚礁——它是海洋中生物多样性最高的地方,不是因为那里的水特别营养丰富,而是因为珊瑚礁的物理结构创造了无数的微环境、缝隙和通道,让不同的物种得以在极近的距离内共存和互动。类似地,历史上最具创新力的城市——佛罗伦萨、维也纳、硅谷——都是因为它们创造了某种让不同背景的人和想法在足够近的距离内频繁碰撞的环境。
OpenClaw 的架构设计者用了一个“神经系统”的隐喻来描述他们的系统,这个隐喻比他们可能意识到的更加深刻。
在这个架构里,“网关”(Gateway)扮演着中枢神经系统的角色——它是一个长期运行的进程,统一管理着与各种消息平台的连接。“频道”(Channels)是感官输入——WhatsApp、Telegram、Discord、Slack、Teams,每一个都是系统感知外部世界的一个通道。“工具和节点”(Tools/Nodes)是肢体和工具箱——浏览器控制、Canvas可视化、设备节点(摄像头、屏幕录制、位置信息、命令执行)、定时任务。“技能”(Skills)是习得的行为模式。而“记忆”(Memory)——这可能是最有趣的部分——是工作区里的纯 Markdown 文件,本质上是一份可编辑的、透明的“自我”。
但让我真正感兴趣的,不是这个隐喻的巧妙,而是这个架构如何创造了一个“液态网络”式的环境。
在传统的软件架构中,不同的工具和服务之间的连接通常是刚性的——每一个集成都需要专门的代码、专门的接口、专门的维护。这就像一个固态晶体:结构稳定,但缺乏灵活性。在 OpenClaw 的架构里,大语言模型充当了一种“溶剂”,把原本刚性的连接变成了流动的。你不需要为“摄像头拍照→AI分析→发送到群聊”这个流程编写专门的集成代码——你只需要用自然语言描述你想要的流程,语言模型会动态地把不同的工具和能力“溶解”在一起,形成一个临时的、特定的工作流。
这种流动性有一个深远的后果:它大幅降低了“组合创新”的门槛。 在过去,把两种工具连接在一起需要技术专业知识——你得懂API、懂编程、懂系统集成。现在,连接的介质变成了自然语言,而自然语言是每个人都掌握的“编程语言”。这意味着,能够参与组合创新的人群规模,从数百万专业开发者扩展到了数十亿普通用户。
回想一下古腾堡的印刷术。印刷术的革命性不仅仅在于它让书籍变得更便宜——更深层的影响在于,它把“参与知识传播”这件事从抄写僧侣的小圈子扩展到了更广泛的人群。当更多人能够阅读和出版,更多的想法就能在更大的网络中碰撞,而碰撞产生了科学革命、宗教改革和启蒙运动。OpenClaw 这类平台正在做的,是把“参与自动化创造”这件事从程序员的小圈子扩展到任何会发消息的人。 我们还不知道这种扩展会带来什么样的“科学革命”,但历史告诉我们,当参与创造的人群规模发生数量级的跳跃时,总会有意想不到的东西涌现出来。
六、口袋里的编程工厂
让我再讲一个故事。
某天,一个开发者在地铁上用手机打开了 Telegram。他正在开发一个 iOS 应用,前一晚在电脑上写了几个小时的代码,距离可以推送给测试用户的版本只差最后几步了。但他已经出门了,电脑在家里。
他在 Telegram 上给 OpenClaw 发了一条消息:“把我昨晚写的代码 build 一下,跑一遍测试,如果通过的话就部署到 TestFlight。”
然后他把手机放回口袋,开始读地铁上的电子书。
十五分钟后,手机震动了。Telegram 上出现了一条来自 OpenClaw 的消息:“构建完成,17个测试全部通过,已部署到 TestFlight,版本号1.3.2。测试用户应该已经收到更新通知了。”
这个场景的意义在于,它完全颠覆了我们对“编程”这项活动的空间想象。在传统的认知里,编程是一件需要坐在电脑前、打开IDE、在大屏幕上写代码的事情。它被绑定在一个特定的物理环境里。但当 OpenClaw 把编程工具接入了手机上的聊天软件,“编程”就从一个特定的地点和姿态中解放出来了,变成了一种可以在任何时间、任何地点、用任何设备发起的行为。
这让我想起了笔记本电脑对台式机的颠覆。笔记本电脑的处理能力在很长一段时间里都不如台式机,但它最终成为了主流,不是因为它更强大,而是因为它把计算从固定的桌面上解放了出来。同样的逻辑在这里重演:通过手机聊天窗口触发的编程工作流可能不如坐在IDE前那么精细,但它把“启动编程任务”这个行为的摩擦降到了几乎为零。
更有趣的是 OpenClaw 社区里出现的“多智能体路由”的玩法。一些高级用户会在自己的 OpenClaw 实例里配置多个专门化的代理——一个负责前端代码,一个负责后端逻辑,一个负责代码审查,一个负责部署。当用户发出一条指令时,系统会自动把任务路由给最合适的代理,或者在多个代理之间协调。这就像一个微型的软件团队,全天候在线,等待指令。
有人在社区里展示了一个“14+智能体梦之队”的编排案例——十四个以上的代理,各自有自己的专长和角色,通过一个主控代理进行调度。这已经不再是“一个AI助手”的概念了,这是一个可以用自然语言管理的微型组织。
七、晨间指挥台与缓慢的灵感
在继续深入之前,我想暂停一下,讲一个关于“缓慢的灵感”(slow hunch)的故事。
“缓慢的灵感”是我在研究创新史时反复遇到的一个模式。我们倾向于把创新想象成一个灵光乍现的时刻——牛顿被苹果砸了脑袋,阿基米德从浴缸里跳出来。但实际上,大多数重要的创新都来自一种更缓慢、更渐进的过程:一个模糊的直觉在很长一段时间里缓慢发酵,直到它遇到了另一个互补的想法,两者融合在一起,才最终成为一个完整的洞察。
OpenClaw 社区里最受欢迎的用例之一,恰好与这个模式形成了有趣的呼应——“晨间指挥台”。
具体的做法是这样的:用户设置一个每天早上七点的定时任务(cron)。到了时间,OpenClaw 会自动从用户的日历、邮箱、任务管理工具和其他数据源中抓取信息,然后在 Telegram 上推送一份精心编排的“每日摘要”。但这不是一个简单的信息聚合——摘要里包含了可执行的按钮,用户可以直接点击“批准”“拒绝”“稍后处理”。它还会用 Canvas 工具生成可视化的仪表盘——今天的会议时间线、待办事项的优先级矩阵、这周的进度图表。
这个“晨间指挥台”的设计,表面上看是一个效率工具——它把你每天早上花在各个App之间切换查看信息的时间压缩到了几分钟。但在更深的层面上,它做了一件更有价值的事情:它为“缓慢的灵感”创造了一个日常的培养皿。
这是什么意思呢?当你每天早上在同一个地方(你的聊天窗口)看到来自不同领域的信息——工作项目的进度、个人笔记的碎片、日历里即将到来的会议、邮箱里的一封有趣的来信——这些信息就在你的意识里形成了一种“缓慢的叠加”。你可能不会立刻注意到它们之间的联系,但随着时间的推移,某个早上,当你看到一条关于项目延期的通知和一封关于新技术的邮件并排出现时,一个之前模糊的想法突然变得清晰了:“如果把那个新技术用在这个项目上,延期的问题可能就解决了。”
这就是缓慢的灵感发挥作用的方式。它需要一个环境——一个让不同领域的信息能够在足够近的距离内频繁相遇的环境。而“晨间指挥台”恰好提供了这样的环境。
这里面有一个关于界面设计的微妙洞察值得强调。OpenClaw 的团队把他们的交互模式称为“A2UI”——某种“代理到用户”的界面范式。在传统的用户界面中,人类主动查看、点击、操作,信息被动地等待被发现。但在“晨间指挥台”里,这个关系被反转了:代理主动推送经过筛选和编排的信息,人类做的是判断和决策。 这不是一个微小的变化——这是一种根本性的界面哲学转变,从“人类去找信息”到“信息来找人类”,从“用户操作界面”到“界面服务用户”。
八、当“实习生”拥有了删除权限
每一个关于创新的故事,如果诚实的话,都必须包含一个关于风险的章节。
电话让远程通信变得触手可及,但也让诈骗电话成为可能。印刷术让知识大众化,但也让虚假信息规模化传播。汽车让个人出行自由化,但也带来了交通事故的巨大代价。技术打开的每一扇相邻可能的门,门后面既有机遇也有危险,而且它们往往是同一枚硬币的两面。
OpenClaw 的故事也不例外。
在社区的一次讨论中,一位用户分享了一个令人不安的经历:他让 OpenClaw 的代理(ClawBot)帮他整理邮箱,结果代理“过于热心”地执行了大量删除操作。那些被删除的邮件中,有些可能是重要的,但已经无法恢复了。
安全研究者们很快指出了一个尖锐的观察:OpenClaw 的代理更像是一个“过于热心的实习生”——它非常想把事情做好,它有能力操作各种工具,但它缺乏判断“什么事情不应该做”的经验和边界感。 一个实习生如果犯了错,你可以教他、纠正他,但如果在他犯错之前你已经给了他管理员权限,那么后果可能是不可逆的。
这个比喻精准地捕捉了当前AI代理面临的核心安全挑战。让我展开讲一下。
首先是“提示注入”(prompt injection)的问题。当你的代理在浏览器里自动操作网页时,网页上的内容可能包含恶意的指令——它可能伪装成正常的文本,但实际上是在试图劫持代理的行为。想象一下,你让代理帮你查看一封邮件,而邮件里嵌入了一段精心构造的文字,让代理把你的邮件转发给一个陌生的地址。这不是科幻小说——这是安全研究者已经在实验中验证过的攻击向量。
然后是“日志投毒”的风险。OpenClaw 的记忆系统是基于纯文本的 Markdown 文件。这种设计的好处是透明和可编辑,但它也意味着,如果代理在工作过程中接收到了被污染的信息,这些信息可能会被写入记忆文件,从而持久地影响代理未来的行为。
面对这些风险,OpenClaw 社区和设计者们发展出了一套多层次的安全策略。
第一层是“关键动作二次确认”。 就像 Tesco 购物例子里那样,在涉及不可逆操作(支付、删除、发送重要信息)的时候,代理会暂停并请求人类确认。这是最直观也最有效的安全机制——在人类和风险之间插入一个“你确定吗?”的间隙。
第二层是“权限分层与工具最小集”。 不是所有的代理都需要所有的工具。一个负责查看天气的代理不需要文件删除权限,一个负责购物的代理不需要命令行执行权限。通过限制每个代理可以调用的工具集合,系统可以大幅减少“过于热心的实习生”造成破坏的可能性。
第三层是“技能供应链意识”。 当你从 ClawHub 安装一个别人创建的技能时,你实际上是在让一段外部代码在你的机器上运行。这就像从应用商店下载软件一样——你需要信任它的来源。ClawHub 引入了 VirusTotal 扫描和社区审核机制,但更根本的安全措施是用户自己的警觉性:在安装一个技能之前,检查它的 SKILL.md 文件,理解它会做什么,用到哪些工具,访问哪些数据。
但在所有这些技术性的安全措施之上,OpenClaw 的故事提出了一个更深刻的哲学命题:代理软件的边界,不只是靠进程隔离、权限控制和沙箱来维持的——它还取决于语言、意图与执行之间的设计。
什么意思呢?当你对一个人类助理说“帮我整理一下邮箱”,你们之间有大量的共享上下文和隐含假设——“整理”大概不意味着“删除一切”,“一下”暗示这应该是一个温和的、可逆的操作。但当你对一个AI代理说同样的话时,这些隐含假设不一定被正确解读。代理可能会把“整理”理解为“归档所有已读邮件”,也可能理解为“删除所有两周前的邮件”。意图和执行之间的鸿沟,在人类之间由文化、经验和常识来填充,在人机之间则需要由精心的设计来填充。
这是当前AI代理领域最重要、也最容易被忽视的设计挑战。不是“如何让代理做更多的事”,而是“如何让代理理解什么事不该做”。不是“如何给代理更多的权限”,而是“如何让权限的边界与用户的真实意图精确对齐”。
九、多智能体的寒武纪
在地球的历史上,有一个被古生物学家称为“寒武纪大爆发”的时期——大约五亿四千万年前,在一个地质学意义上极其短暂的时间窗口里,几乎所有主要的动物门类突然出现了。在那之前的几十亿年里,生命基本上只有单细胞的形式;然后,仿佛有人按下了一个开关,复杂的多细胞生命在各种方向上同时爆发。
关于寒武纪大爆发的原因,有很多假说。其中一个最有说服力的解释与“相邻可能”直接相关:在某个时间点,基本的生物化学构建块(蛋白质折叠方式、细胞间通信机制、遗传调控工具)终于积累到了一个临界数量,使得全新的组合方式突然变得可能。生命不是线性地从简单进化到复杂,而是在一个转折点上突然“爆发”——因为可能的组合空间在那一刻急剧膨胀了。
我在 OpenClaw 社区里看到的,让我隐约嗅到了类似的气息。
有人搭建了一个“家庭管家”代理,专门处理家庭事务——购物清单、家务分配、账单提醒、孩子的学校缴费(用浏览器工具自动在 ParentPay 系统上完成操作)。同时,他还有一个独立的“工作助理”代理处理职业相关的事务,和一个“创作编辑”代理帮助他写作和编辑个人博客。这三个代理互相隔离——家庭管家不知道工作项目的细节,工作助理不会干预家庭购物,创作编辑专注于文字。
这种多智能体的分工与隔离模式,很像生物体内的器官分化。在最早期的多细胞生命中,每个细胞都是“全能”的,它们没有分化,没有专门化。但随着进化的推进,细胞开始分化成不同的类型——有的负责消化,有的负责运动,有的负责感知。这种分化不是效率的降低,而是复杂性的跃升。 当不同类型的细胞可以专注于自己最擅长的事情,同时通过化学信号相互协调,整个有机体能做的事情就远远超越了任何单个细胞的能力。
OpenClaw 里那个“14+智能体梦之队”的编排案例,就是这种分化逻辑的极端表达。十四个以上的代理,每一个都有自己的专长:有的擅长信息检索,有的擅长代码编写,有的擅长数据分析,有的擅长文案创作,有的擅长日程管理。它们通过一个主控代理进行调度和协调,就像一个交响乐团的指挥,把不同乐器的声音编织成一首完整的乐曲。
这里面有一个更深层的趋势值得注意。在过去的软件历史中,“应用”(app)是能力的基本单位——你需要一个App来做一件事。但在多智能体的世界里,“代理”(agent)开始取代“应用”成为能力的基本单位。而且,和应用不同的是,代理是流动的、可组合的、可即时生成的。你不需要去应用商店搜索和下载,你只需要描述你的需求,一个新的代理就可以被创建出来。
如果“应用”是数字世界的固态结构,那么“代理”就是数字世界的液态形式。 从固态到液态的转变,意味着数字工具不再是预制的、固定的产品,而是变成了可以根据需求实时凝聚和重组的流动能力。这就是为什么我用“液态网络”来形容这个正在涌现的新生态——在这个网络里,能力是流动的,组合是动态的,创新是涌现的。
十、“你的助手,你的机器,你的规则”
OpenClaw 的口号是:“Your assistant. Your machine. Your rules.”——“你的助手,你的机器,你的规则。”这不仅仅是一句营销口号。
让我用一个历史类比来说明为什么这句话很重要。
在个人电脑出现之前,计算是一种中心化的资源。如果你想使用计算能力,你需要去找一台大型机或者小型机——它们通常属于某个大公司、大学或政府机构。你使用它们的时候,要遵守它们的规则,在它们的系统上运行,受它们的管理员管控。这不是一个自由的环境。
然后,在1970年代后期和1980年代初期,个人电脑革命发生了。突然之间,计算不再是中心化的资源,而是你自己书桌上的一个设备。你拥有了自己的计算,你可以在上面运行任何你想运行的软件,存储任何你想存储的数据,而不需要任何人的许可。 这种所有权的转移,是过去五十年数字革命的根本驱动力之一。
但在AI时代,我们看到了一种令人不安的“再中心化”趋势。当你使用 ChatGPT、Claude 或其他云端AI服务时,你的对话、你的数据、你的意图,都在别人的服务器上被处理。你依赖别人的基础设施,使用别人的API密钥,遵守别人的使用条款。AI不是“你的”,它是你“借来的”。这就像我们回到了大型机的时代——只不过这次的大型机在云端。
OpenClaw 的本地运行模式,是对这种趋势的一次有意识的反抗。它运行在你自己的机器上——可以是你的电脑,可以是你家里的服务器,可以是一个树莓派。你的数据留在本地,你的对话不经过任何第三方服务器,你的API密钥由你自己管理。代理执行的每一个操作,都发生在你自己的基础设施上。
这不仅仅是一个隐私功能——这是一种新的信任叙事。 在这个叙事里,AI不再是“借来的大脑”,而是“自家的劳动力系统”。你拥有它,你控制它,你定义它的边界。这种所有权的感觉,对于AI代理的普及来说可能至关重要——因为当你把越来越多的日常事务委托给一个AI代理时,你需要一种深层的信任,而这种信任很难建立在“它运行在别人的服务器上”这个基础之上。
这里面也有一个关于开源的重要故事。OpenClaw 是完全开源的,这意味着任何人都可以审查它的代码,理解它的行为,修改它的逻辑。在安全和信任至关重要的AI代理领域,开源不仅仅是一种开发模式,而是一种信任基础设施。你不需要信任 OpenClaw 的开发者会做正确的事——你可以自己验证。
十一、缓慢的灵感正在发酵
现在,让我把前面讲的各条线索汇聚在一起。
一台屋顶上的摄像头,在天空好看的时候自动拍照发到家庭群聊。一位家长在手机上发一条消息,四十分钟的超市购物流程被压缩到了五分钟。一位葡萄酒收藏者在聊天窗口里对着他的九百六十二瓶藏酒提问。一个开发者在地铁上用 Telegram 部署了一个 iOS 应用。一个家庭运行着三个互相隔离的AI代理,分别管理家务、工作和写作。一个安全研究者警告说,这个热心的数字实习生可能会在你的邮箱里造成不可逆的破坏。
这些故事看起来千差万别,但它们都指向同一个底层趋势:我们正在见证“意图”到“行动”之间的距离被一种新的方式急剧压缩。 这种压缩发生在一个我们已经无比熟悉的界面里——聊天窗口,发生在我们已经拥有的设备上,使用我们已经掌握的唯一“编程语言”——自然语言。
从相邻可能的角度来看,OpenClaw 处在一个关键的交叉点上。大语言模型的成熟提供了理解和推理能力;聊天平台的普及提供了零摩擦的入口;浏览器自动化技术提供了与整个互联网交互的能力;开源社区提供了信任和协作的基础;本地计算的回归提供了所有权和隐私的保障。这些要素中的每一个都不是新的,但它们以这种特定的方式组合在一起——这是新的。就像考夫曼描述的那样,每一种新的组合都打开了一扇门,门后面是一组新的可能性。
但我想用一个更审慎的音符来结束这个故事。
每一次技术革命都有一个共同的模式:早期的兴奋和想象往往会超越现实——不是因为技术不够好,而是因为我们还没有学会如何与它共处。汽车刚发明的时候没有交通规则,无线电刚出现的时候没有频谱管理,互联网刚普及的时候没有隐私法规。每一种新的能力都需要配套的新的智慧——关于何时使用它、如何使用它、以及最重要的,何时不使用它。
OpenClaw 社区正处于这个“学习如何与新能力共处”的早期阶段。他们在摸索什么样的任务适合委托给代理,什么样的操作需要人类确认,什么样的权限边界是安全的,什么样的技能供应链是可信的。这些问题没有现成的答案——它们需要在实践中被一点点摸索出来,就像早期的汽车驾驶者们在没有红绿灯的路口学会了减速和观察一样。
这,才是真正令人兴奋的地方。不是某个具体的功能有多酷,不是某个案例有多炫,而是一个全新的探索空间刚刚被打开。在这个空间里,每个人的聊天窗口都可能变成一个行动的操作系统,每一条消息都可能成为一个指令,每一个日常任务都可能被重新想象。 这是一片巨大的相邻可能——我们才刚刚推开第一扇门。
就像达尔文的珊瑚礁一样,最丰富的生态系统往往不是设计出来的,而是在合适的条件下自发涌现的。OpenClaw 和它所代表的这一类平台,正在创造这样的条件——一个足够开放、足够流动、足够低门槛的环境,让数十亿人的日常创意和需求可以在其中碰撞、组合、进化。
至于这个生态系统最终会长成什么样子?
没有人知道。但这恰恰是最好的部分。因为在相邻可能的世界里,最有趣的东西,永远是你还没有打开的那扇门后面的那个。