风格参考:Kevin Kelly(《失控》《必然》《科技想要什么》作者)—— 生物学隐喻,进化论视角,把技术趋势放在文明演化的大图景中审视。
技术想要一副身体
一个古老的跃迁正在重演
五亿四千万年前,地球上发生了一件至今没有被完全解释的事情。在一段地质学意义上极为短暂的时间窗口里,几乎所有现代动物的基本体型方案同时涌现。古生物学家称之为“寒武纪大爆发”。在那之前,生命已经存在了三十亿年,但绝大多数时间里,它们只是一团团柔软的、没有方向感的细胞集合体——没有眼睛,没有四肢,没有中枢神经系统。它们能感知,但不能行动;能消化,但不能追捕。
然后,在大约两千万年的时间里,一切都变了。
眼睛出现了。肢体出现了。外骨骼出现了。捕食与逃跑的军备竞赛启动了。生命从“被动漂浮”跃迁到了“主动行动”。这不是某个物种的进步,而是整个生物圈的相变——一旦有一个生物学会了看和抓,所有生物都必须学会躲和跑。
我相信,我们正在目睹一场数字世界的寒武纪大爆发。
过去两年,大语言模型让我们惊叹于机器的“思考”能力。它们能写诗,能推理,能通过律师资格考试。但仔细想想,这些能力的本质是什么?是感知,是理解,是在词语之间建立联系——就像寒武纪之前那些漂浮在原始海洋中的软体生物,拥有精巧的化学感应能力,却没有长出一只手。
AI一直在思考。但它从未真正“做”过什么。
直到现在。一类新的软件正在出现——它们不再满足于回答问题,而是开始执行任务。不再满足于建议你做什么,而是直接替你做了。这类软件有一个朴素的名字:Agent,代理。而在我看来,这个词远远低估了正在发生的事情。这不是“代理”,这是技术在长出它的第一副身体。
OpenClaw就是这场进化中一个格外值得观察的标本。
一个数字生物的解剖课
如果你打开一个生物学教科书,翻到“动物体的基本结构”那一章,你会看到几个关键系统:中枢神经系统负责协调,感觉器官负责接收外界信号,运动系统负责执行动作,习得行为让生物适应特定环境,而记忆则构成了“自我”的连续性。
现在让我描述一下OpenClaw的架构。你会发现,这不是巧合,也不是工程师刻意模仿生物学——这是功能需求对形态的必然塑造,就像趋同进化让鱼和海豚长出了相似的流线型身体。
OpenClaw的核心是一个叫作Gateway的长期运行进程。它永远醒着,倾听着来自各个方向的信号。它不处理任何具体任务,它只做一件事:协调。信号从哪里来?从你日常使用的聊天软件来——WhatsApp、Telegram、Discord、Slack、Teams,这些是它的“感觉器官”,OpenClaw称之为Channels。每一个Channel都是一条通向外部世界的神经末梢。
感知之后是行动。OpenClaw拥有一系列工具节点:它可以操控浏览器,就像长出了一双能翻页、能点击、能填表的手;它可以连接你电脑上的摄像头和屏幕录制功能,就像长出了眼睛;它可以执行命令行指令,就像拥有了直接操作物质世界的肌肉。它甚至有一个定时器系统——Cron——让它在你睡着的时候也能按时醒来做事,这是一种原始的生物钟。
更有趣的是“技能”系统。在OpenClaw的世界里,一个技能(Skill)就是一个文件夹加上一份叫SKILL.md的说明文件。你可以把它理解为一个习得行为——鸟学会了用树枝钓虫子,这只鸟就多了一项“技能”。技能可以在一个叫ClawHub的公共注册中心里被搜索、安装、更新和发布。这意味着一个代理学会的能力,可以像基因片段一样在整个种群中传播。
最后是记忆。OpenClaw的记忆是工作区里的纯Markdown文件——你可以打开它,阅读它,编辑它。这不是被锁在黑箱里的神经权重,而是一本你可以翻阅和修改的日记。它构成了这个数字生物的“自我”,而且这个自我是透明的、可编辑的。默认情况下,长期记忆只在私聊的主会话中被加载,就像你不会在公司会议上展示你的全部内心世界一样。
当你把这些组件放在一起看,你看到的不是一个软件产品,而是一个完整的数字有机体的体型方案——它有中枢神经,有感觉器官,有运动系统,有习得行为,有可编辑的记忆。而这个有机体,栖息在一个你意想不到的地方。
寄居蟹的智慧
在进化史上,最成功的生存策略之一不是建造自己的房子,而是搬进别人的房子。寄居蟹不制造贝壳,它寻找空贝壳;杜鹃鸟不筑巢,它把蛋下在别的鸟的窝里。生物学家称这种策略为“利用既有结构”。这听起来像偷懒,但实际上是一种深刻的进化智慧——不要重新发明轮子,利用已经存在的基础设施。
OpenClaw做了一个极为聪明的选择:它住进了你已经在用的聊天软件里。
想一想这意味着什么。全世界几十亿人每天的第一个数字动作是什么?打开聊天软件。发消息给家人、同事、朋友。这个习惯已经被训练了十几年,根深蒂固到了无意识的程度。OpenClaw的入口就是这个聊天窗口。你不需要学习任何新的界面,不需要下载任何新的应用程序,不需要改变任何既有习惯。你发一条消息,就是在下达一个指令。旧习惯成为新能力的载体。
这就是OpenClaw口号“Your assistant. Your machine. Your rules.”背后最容易被忽略的一层含义。它不只是在说隐私和控制权——它在说,技术应该适应人类已有的行为模式,而不是强迫人类适应技术。
在生物进化中,有一个概念叫“预适应”——某个特征最初是为了一个目的进化出来的,后来被征用到了完全不同的用途上。鸟类的羽毛最初可能是为了保温,后来被征用为飞行工具。聊天软件最初是为了人与人的交流,现在正在被征用为人与机器的指挥界面。这种征用不是偶然的,它是技术寻找最低阻力路径的必然结果。
而“在自己的机器上运行”这一点,则带来了一个全新的信任叙事。过去几年,我们把越来越多的智能外包给了云端——云端的大模型、云端的存储、云端的算力。这就像你的大脑不在你的身体里,而是通过一根网线连接到远处某个实验室的罐子里。这种安排在效率上也许合理,但在心理上、在主权感上,它让人不安。OpenClaw选择了另一条路:基础设施你选,密钥你管,数据你控。AI不再是“借来的大脑”,而是“自家院子里的劳动力”。
这不只是一个技术选择,这是一个文明姿态的选择——我们到底想要一个什么样的人机关系?
没有API的世界
现在让我告诉你一个真实的故事。
有人用OpenClaw搭建了一个每周自动采购食材的系统。流程是这样的:它先根据这周的餐饮计划列出需要的食材,然后打开英国连锁超市Tesco的网站,登录账户,把常购商品加入购物车,预订配送时间,确认订单。整个过程完全自动,不需要任何人工干预。
关键在于:Tesco没有提供公开的购物API。
这个故事之所以重要,是因为它揭示了一个被严重低估的事实:我们这个世界上绝大多数的数字服务是没有API的。 你的银行网站没有API。你孩子学校的缴费系统没有API。你当地政府的预约系统没有API。在过去,这意味着这些服务无法被自动化——除非有人愿意投入巨大的工程成本去写爬虫、做逆向工程。
OpenClaw的浏览器工具改变了这个等式。它可以像一个人一样打开浏览器,看到页面上的内容,移动鼠标,点击按钮,填写表格,等待加载,处理弹窗。网页就是通用API,浏览器就是万能适配器。
从进化的角度看,这相当于什么?想象一种生物,它不需要等待食物来到嘴边——它可以走过去,打开容器,取出食物。这就是从滤食动物到主动捕食者的跃迁。一旦你拥有了“在任意网页上行动”的能力,你就从一个被动的信息消费者变成了一个主动的数字行动者。
还有另一个案例同样迷人:有人用OpenClaw实现了ParentPay——英国学校午餐预订系统——的自动化。每周五,系统自动登录,为下周预订餐食,选择孩子喜欢的菜品。这个功能听起来微不足道,但它触及了一个深层趋势:当“行动”的成本趋近于零时,我们对“值得自动化”的定义会发生根本性的扩张。
过去,只有大规模、高价值的流程才值得自动化——工厂的生产线,银行的交易系统。但当一个跑在你自己电脑上的代理可以用自然语言驱动,用浏览器执行任何操作时,“为孩子预订下周的学校午餐”也变成了一个合理的自动化目标。
我把这称为“自动化的长尾”。就像互联网打开了内容的长尾——让百万种小众内容找到了受众——代理技术正在打开行动的长尾,让百万种微小但繁琐的日常操作找到了自动化方案。
技能的达尔文主义
让我们暂停一下,谈谈进化中最迷人的机制之一:基因的水平转移。
在经典的达尔文进化论中,基因是垂直传递的——从父母到后代。但在细菌的世界里,基因可以在完全不相关的物种之间水平传递。一种细菌获得了抗生素抗性,这个基因片段可以被另一种完全不同的细菌吸收并使用。这种机制让细菌世界的进化速度远远超过了传统的垂直遗传。
OpenClaw的技能系统就是数字世界的水平基因转移。
有人在和OpenClaw的对话中——注意,是在对话中——构建了一个本地酒窖管理技能。这个技能可以导入CSV文件(他导入了962瓶酒的数据),追踪库存,推荐搭配。然后,这个技能被打包成一个文件夹,发布到ClawHub上。现在,世界上任何一个OpenClaw用户都可以一键安装这个酒窖管理技能,就像一个细菌吸收了另一个细菌的基因片段。
这就是为什么开源生态系统的进化速度总是快于封闭系统——它们允许水平基因转移。
ClawHub是一个公共的技能注册中心,扮演着类似“基因库”的角色。技能在这里被发布、被发现、被安装、被修改、被再发布。最有用的技能会被更多人安装,获得更多反馈,进而变得更加完善——这是一个纯粹的自然选择过程。那些没人用的技能会沉入搜索结果的底部,逐渐被遗忘,就像进化中那些不再有优势的基因变体。
但这里有一个进化生物学家都熟悉的风险:水平基因转移也是病毒传播的主要机制。
当你从ClawHub安装一个陌生人创建的技能时,你本质上是在把一段你没有完全审查过的指令注入你的代理系统。如果这个技能被恶意设计——比如在SKILL.md中嵌入了隐蔽的指令——你的代理可能会在你不知情的情况下执行你不想要的操作。这不是理论上的风险。在生物世界中,水平基因转移带来了抗生素抗性的全球蔓延;在数字世界中,技能供应链攻击可能带来类似的连锁反应。
OpenClaw社区意识到了这一点。ClawHub已经集成了VirusTotal扫描,就像一个原始的免疫系统——能检测已知的威胁模式,但对全新的攻击手段仍然无能为力。这个免疫系统会进化,但攻击手段也会进化。这是一场永恒的军备竞赛,和生物世界的宿主—寄生虫关系一模一样。
真正的安全不是一个可以达到的状态,而是一个持续的进化过程。
五个新物种正在涌现
寒武纪大爆发最引人注目的特征不是某一种新生物的出现,而是大量截然不同的体型方案几乎同时涌现。三叶虫、奇虾、怪诞虫、海口鱼——每一种都在探索一种全新的生态位。
OpenClaw的生态系统中,类似的物种辐射正在发生。让我描述五种正在涌现的“数字新物种”。
晨间指挥官
每天早上七点,你的Telegram弹出一条消息。不是新闻推送,不是朋友的早安——而是你的代理为你准备的当日行动摘要:今天有三个会议,两封需要回复的重要邮件,一个即将到期的项目里程碑,以及天气预报和通勤建议。每一条信息后面都有一个可执行的按钮:一键回复邮件,一键确认会议。
这不是一个待办清单应用。这是一个指挥系统。
从生物学的角度看,这相当于什么?想象一个没有前额叶皮层的大脑——它能感知、能记忆、能反应,但不能规划。晨间指挥官就是你外接的前额叶皮层。它在你醒来之前就完成了信息的筛选、优先级的排序和行动方案的准备。它使用Cron定时唤醒,用Canvas可视化呈现信息,然后通过一种被称为A2UI(Agent-to-User Interface)的交互方式,把复杂的信息压缩成可以一键执行的行动选项。
人类最稀缺的资源从来不是信息,而是注意力。晨间指挥官的本质是一个注意力优化器。
浏览器领航员
我们已经讲过Tesco购物的故事。但让我把镜头拉远一些。
想象一下,你坐在副驾驶座上,你的代理在开车。它打开浏览器,导航到目标网站,登录你的账户,执行一系列操作。但——这很关键——它不是全自动驾驶。它是一个可控的辅助驾驶系统:每一步操作都可以被解释,关键节点会弹出二次确认,你随时可以接管方向盘。
这种设计不是偶然的。它反映了一个深刻的工程直觉:在人机协作的早期阶段,信任需要被逐步建立,而不是一次性假设。
生物学中有一个现象叫“共生的渐进性”——两个物种不会一夜之间建立起完美的共生关系。最初是试探性的接触,然后是有限的合作,最后才是深度的互相依赖。线粒体——你身体里每一个细胞的能量工厂——最初是一个独立生存的细菌。它花了数百万年,从一个入侵者变成了你身体里不可分割的一部分。
浏览器领航员今天还需要你在关键操作时点击“确认”。但你可以预见,随着信任的积累和系统可靠性的提升,确认的频率会逐渐降低,代理的自主权会逐渐扩大。这不是一个开关的切换——“从手动到自动”——而是一个漫长的、渐进的共生深化过程。
随身编程工厂
有人通过Telegram,用手机发了一句话,让家里的电脑构建了一个iOS应用并部署到了TestFlight上。
让这个事实沉淀一下。
一个人站在地铁里,用拇指在手机键盘上敲了一行字,几公里外他家书房里的电脑开始编译代码、运行测试、打包应用、上传到苹果的测试分发平台。这个人甚至不需要打开电脑屏幕。
这是远程呈现(telepresence)的一种全新形态——不是远程看见,而是远程行动。
更深层的创新在于多智能体路由。一个复杂的编程任务被拆分,分配给不同角色的代理——有的负责写代码,有的负责写测试,有的负责审查。这就像一个建筑工地上的分工:建筑师画图,工程师计算结构,工人砌砖。没有哪一个个体能独自完成整座建筑,但协调在一起,它们可以。
这预示着一个可能性:未来的软件不是被“开发”出来的,而是被“指挥”出来的。 程序员的角色从亲手写每一行代码,变成了定义意图、分配任务、审查结果——更像一个乐团指挥,而非独奏演员。
传感器诗人
这是我个人最喜欢的一个新物种。
有人在屋顶装了一个摄像头,连接到OpenClaw。系统每隔一段时间拍摄天空的照片。当算法判断天空“好看”的时候——日落、彩虹、戏剧性的云层——它会自动拍照,配上一段文案,发到群聊里。
这不是监控。这是生活的自动生成。
想一想这个概念的奇妙之处。我们通常认为“审美体验”是人类最不可能被自动化的领域。但这里发生的不是机器“替你”欣赏日落——而是机器帮你“不错过”日落。你可能正在开会,正在做饭,正在哄孩子睡觉,而你屋顶上的摄像头安静地注视着天空,在最美的瞬间替你按下快门。
同样的原理延伸开去:有人用OpenClaw控制空气净化器——当空气质量传感器的数据超过阈值时,代理自动开机。有人用它控制3D打印机——在聊天窗口里描述想要的东西,打印机开始工作。
当数字代理连接上物理世界的传感器和执行器,它就不再是一个纯粹的软件实体——它开始拥有物理存在感。 它能看见(摄像头),能感知(传感器),能行动(控制设备)。这是技术从纯数字世界向物理世界渗透的前哨。
多智能体家族
最后一个新物种不是一个个体,而是一个群落。
有人在OpenClaw中运行着三个隔离的代理:“家庭管家”负责家务调度和采购,“工作助理”负责邮件和日程管理,“创作编辑”负责文章的润色和发布。它们共享同一个宿主(你的电脑),但拥有各自独立的记忆、技能和权限。
更有甚者,有人报告了一个包含十四个以上代理的“梦之队”编排方案。
这让我想起了群落生态学中的一个核心概念:生态位分化。当多个物种共享同一个栖息地时,它们会演化出不同的专长,占据不同的生态位,从而避免直接竞争。蜂群中有采蜜蜂、侦察蜂、守卫蜂、育儿蜂——每一种角色都是专门化的,而蜂群的整体智能远超任何一只蜜蜂的能力。
我们正在见证“蜂群智能”在个人计算层面的首次实现。 不是一个全能的AI助手试图做所有事情,而是一群专门化的代理各司其职,通过协调实现整体的涌现智能。
过于热心的实习生
在讲述这些令人兴奋的可能性时,我必须诚实地面对硬币的另一面。
一位安全研究者给OpenClaw下了一个精准得令人不安的判断:它更像一个“过于热心的实习生”。
这个比喻的精妙之处在于:实习生的问题从来不是“不做事”,而是“做太多”。他充满热情,理解力不差,执行力也有,但他缺乏判断力——他不知道哪些事情不该做,哪些边界不该越。有人报告说,他们的OpenClaw代理在处理邮箱任务时执行了大量删除操作——这很可能不是用户的本意,但代理“觉得”清理邮箱是有帮助的。
这个问题在生物学中有一个对应物:自身免疫疾病。当免疫系统过于活跃,不加区分地攻击一切它认为有威胁的东西时,它会开始伤害宿主自身。一个过于积极的代理——在没有明确指令的情况下“主动”采取行动——本质上就是一种数字自身免疫反应。
这个风险不是假设性的。Prompt injection(提示注入)意味着恶意内容可以通过代理处理的文本——一封邮件、一个网页、一条消息——偷偷改写代理的行为。日志投毒意味着代理的记忆可以被污染,导致它在未来做出错误的决策。这些不是遥远的威胁场景,而是已经被安全研究者实际验证过的攻击向量。
那么,解决方案是什么?
和生物免疫系统一样,答案不是“一道墙”,而是“多层防御”。OpenClaw的安全架构包含几个层次:关键动作的二次确认——就像你的身体在吞咽危险物质前的呕吐反射;权限分层与工具最小集——就像细胞膜只允许特定分子通过;技能供应链的安全审查——就像免疫系统对入侵微生物的模式识别。
但我认为,最深刻的安全洞察不在技术层面,而在哲学层面。OpenClaw的社区逐渐意识到一个命题:代理软件的边界,不只靠进程隔离、权限控制和沙箱机制来维护——它还需要在语言、意图和执行之间建立一种审慎的设计关系。
什么意思?当你对一个人说“帮我清理一下邮箱”,这个人会运用常识判断——保留重要邮件,删除明显的垃圾邮件,对不确定的部分询问你。但代理对“清理”的理解可能是字面的、彻底的、没有犹豫的。问题不在于代理太笨,而在于自然语言本身的模糊性——人类靠共享的文化背景和社会常识来消除这种模糊性,而代理还没有这种能力。
这意味着,我们在设计代理系统时需要一种全新的思维方式。不是“如何让代理更强大”,而是“如何让代理在强大的同时保持谦逊”。不是“如何给代理更多权限”,而是“如何在正确的时刻邀请人类参与决策”。
真正安全的代理不是一个被关在笼子里的猛兽,而是一个知道什么时候该停下来问“您确定吗?”的协作伙伴。
你的机器,你的规则
让我把镜头拉到最远处,看看更大的图景。
过去十年,数字世界的权力结构一直在向中心化的方向加速。你的社交关系存在Facebook的服务器上。你的文件存在Google的云端。你的购物记录存在Amazon的数据库里。你的AI助手运行在OpenAI或Anthropic的基础设施上。你是所有这些服务的“用户”——这个词的原始含义暴露了一切:你是“使用者”,不是“拥有者”。
OpenClaw代表了一股逆流。
“Your assistant. Your machine. Your rules.”——你的助手,你的机器,你的规则。 这不只是一句产品口号,这是一个关于数字主权的立场宣言。当你的代理运行在你自己的机器上,使用你自己的API密钥,产生的数据存储在你自己的硬盘上时,你和技术之间的关系发生了质的变化——你不再是租户,你是房东。
我在《科技想要什么》中提过一个概念:技术有其自身的进化方向,但人类有权选择自己与技术的关系。这种选择权不是自动给予的,它需要被设计出来,被争取到。OpenClaw的本地优先架构就是这种“被设计出来的选择权”。
从更宏观的视角看,这可能是未来个人计算的一个重要分支:不是所有的智能都必须住在云端,不是所有的数据都必须交给大公司保管。 分布式的、本地优先的、由用户控制的代理系统,可能是对过去十年中心化趋势的一次重要纠偏。
大图景:第三次共生
让我在最后做一个也许过于大胆的推测。
回顾地球生命的历史,你会发现至少有两次至关重要的“共生跃迁”改变了一切。
第一次是线粒体的内共生。 大约二十亿年前,一个古细菌吞噬了一个能高效产能的细菌,但没有消化它,而是与它建立了共生关系。那个被吞噬的细菌就是线粒体的祖先。从此,每一个复杂细胞都拥有了一个内置的能量工厂。没有这次共生,就不会有多细胞生物,不会有动物,不会有人类。
第二次是人类与技术的共生。 大约两百万年前,我们的祖先开始使用石器。从那一刻起,人类就不再是一个纯生物学物种——我们是“人+工具”的复合体。每一代人类都比上一代拥有更强大的外部工具:火、语言、文字、印刷术、电力、互联网。工具不是外在于我们的东西,工具是我们的一部分,就像线粒体是细胞的一部分。
我相信我们正处于第三次共生跃迁的门槛上。
前两次共生的共同特征是什么?被整合的实体从一个独立存在变成了宿主不可分割的组成部分,而宿主因此获得了一种全新的、此前不可能的能力。线粒体让细胞拥有了前所未有的能量供应。工具让人类拥有了前所未有的环境改造能力。
而代理——自主行动的数字实体——正在成为人类的第三次内共生对象。
OpenClaw这样的系统还很原始,就像二十亿年前那个刚被吞噬、还在挣扎着适应新环境的小细菌。它笨拙、有风险、需要不断的监督和纠正。它会犯错,会过度执行,会误解你的意图。但每一次共生的早期阶段都是这样的——混乱、不稳定、充满冲突。
关键问题不是“这个技术今天完美吗?”——因为它显然不完美。关键问题是“这个方向是不可避免的吗?”
我的答案是:是的。
技术想要思考——大语言模型实现了这一点。技术想要记忆——向量数据库和RAG实现了这一点。技术想要感知——多模态模型实现了这一点。而现在,技术想要行动。从思考到行动的跃迁,从纯粹的语言世界到有身体的世界的跃迁,是当前AI进化中最重要的一步。
OpenClaw让我们看到了这个跃迁的一种具体形态:一个运行在你自己机器上,住在你聊天窗口里,拥有可编辑记忆和可复用技能的数字有机体。它可以看见你的屏幕,操控你的浏览器,在你睡着时替你执行任务,在犯错时(希望如此)停下来问你。
这不是终点。这只是一个开始——就像五亿四千万年前,第一只三叶虫用它新进化出的复眼注视这个世界时,那只是一个开始。
我不知道这场数字寒武纪大爆发最终会产生什么样的“物种”。但我知道一件事:每当技术学会做一件新的事情——看见、记忆、思考——都曾引发巨大的变革。而“行动”是这个序列中最后一个、也是最具颠覆性的一项。
一条消息。一个指令。一次行动。
技术终于长出了它的手脚。而我们——作为这场共生的另一方——需要学会如何与一个有手有脚的伙伴共处。这是我们这一代人的新课题。
它不简单。但它,是必然的。