OpenClaw 与个人 AI 助手的三层架构

OpenClaw 与个人 AI 助手的三层架构

基于 Hanselminutes #1036(2026-02-12)访谈整理与延展


从对话到行动:AI 产品形态的结构性转变

过去三年,AI 产品的主流范式是”对话即界面”——用户在一个文本框里输入,模型在同一个文本框里输出。这个范式定义了 ChatGPT、Claude、Gemini 等一众产品的交互逻辑,也几乎锁定了公众对”AI 能做什么”的想象边界。

2025 年以来,一个新的范式开始显现:AI 不再只是一个你去访问的目的地,而是嵌入到你已有工作流中的能力层。它可能出现在你的消息应用里(WhatsApp、Telegram、Slack),可能运行在你的设备上(macOS、Windows、iOS、Android),可能在你不操作电脑的时候也持续运行。

Hanselminutes 第 1036 期《The Rise of The Claw》所讨论的 OpenClaw,正是这个范式转变的一个典型样本。它的价值不在于”又做了一个 agent”,而在于它所做出的一系列架构决策,暴露了”从对话到行动”这个转变中必须面对的结构性取舍。

这些取舍可以用一个框架来理解:控制面(Control Plane)、执行面(Execution Plane)、推理面(Inference Plane)的三层分离。


框架:三层分离

要理解 OpenClaw 的架构选择,首先需要理解“能行动的 AI”面临的三个独立问题:

层级 核心问题 关键约束
控制面 会话状态、路由、配置、渠道接入归谁管? 主权与可迁移性
执行面 文件操作、命令执行、硬件访问在哪里发生? 权限与隐私
推理面 模型推理在哪里进行?用什么模型? 能力、成本与延迟

在传统的 SaaS AI 产品中,这三层是合并的:控制面在厂商的云端,执行面在厂商的沙箱里,推理面也由厂商统一提供。用户获得了简洁的体验,但代价是完全放弃了主权——你的上下文、你的配置、你的记忆,全部托管在别人的基础设施上。

OpenClaw 的核心命题是:把这三层拆开,让用户在每一层上都有选择权。


控制面:本地优先的主权设计

OpenClaw 把控制面实现为一个叫 Gateway 的组件。Gateway 负责会话管理、消息路由、工具调度、渠道接入(WhatsApp/Telegram/Slack/Discord 等)、Web UI、以及节点管理。它是整个系统的“控制平面”。

关键设计决策:Gateway 默认运行在用户自己的机器上,WebSocket 控制面绑定在本机回环地址。

这意味着:

  1. 会话状态在本地。 你的对话历史、session logs、agent 配置、SOUL.md(人格设定文件)、daily logs(每日记忆)等,全部存储在本地文件系统中,路径明确(~/.openclaw/agents/<agentId>/sessions)。
  2. 上下文可迁移。 你可以备份、审计、版本化自己的上下文资产。当你换设备、换模型、换部署方式,“同一个助手”的连续性不会丢失。
  3. 不依赖平台记忆。 当前主流 AI 产品提供的“记忆”功能(如 ChatGPT Memory),本质上是厂商替你管理上下文。你无法导出、无法审计、无法在不同产品间迁移。OpenClaw 把这个决策权还给了用户。

这个设计选择的战略含义非常清晰:在 AI 产品从“单次对话”走向“持续运行”的过程中,谁控制了上下文,谁就控制了用户关系的连续性。 OpenClaw 选择把这个控制权留给用户,而不是平台。


执行面:设备原生的能力边界

控制面解决了“谁管调度”的问题,但还有一个更敏感的问题:当 AI 需要“动手”——执行命令、读写文件、访问摄像头——这些动作在哪里发生?

OpenClaw 的答案是 Node。Node 以原生应用形态运行在用户的具体设备上(macOS app、Windows app、iOS app、Android app),把该设备的能力暴露给 Gateway 调度。

这个分层带来三个直接收益:

第一,权限贴近设备。 不同操作系统的权限模型差异巨大——macOS 的 TCC(Transparency, Consent, and Control)、Windows 的 UAC、iOS 的沙箱。把设备能力封装在 Node 里,意味着权限管理天然由操作系统的原生机制来保障,而不是由 Gateway 来模拟。

第二,隐私面大幅缩小。 在 agent 系统中,最大的隐私风险往往不来自“聊天内容”,而来自“工具输出”——文件路径、命令返回值、浏览器截图、屏幕录制、日历/通讯录/健康数据。这些数据一旦进入模型上下文,就可能被存储或泄露。Node 在本地执行、在本地过滤,至少提供了一个“在数据进入模型之前做拦截”的机会。

第三,跨设备但不跨信任。 访谈中 Scott Hanselman 描述了一个典型场景:Gateway 运行在 Mac mini 上,他在 Telegram 里对 AI 说“把我那台 Windows 电脑桌面上的 JPEG 找出来打包发给我”。Windows Node 收到指令,在本地执行文件查找和打包,然后通过 Gateway 回传。过去做这件事需要远程桌面或 SSH;现在变成一句话。但关键是:文件操作发生在那台 Windows 机器本地,而不是先把文件上传到某个云端中转站。

这里的战略洞察是:“行动”和“思考”的信任边界完全不同。 你可以接受把一个问题发送到云端模型去思考,但你很难接受让云端直接操控你的文件系统。Node 的存在,就是在“AI 能行动”的前提下,把行动的信任边界锚定在设备而非云端。


推理面:混合现实主义

如果说控制面和执行面体现的是“本地优先”哲学,那推理面体现的则是务实的妥协。

OpenClaw 没有假装本地推理已经够用。它采取的策略是:推理是一个可替换的服务层,按任务类型分层调用。

访谈中披露的实际用法:

  • Opus(高能力模型):用于深度推理、复杂规划、长上下文任务。Peter 用它作为主力“人格模型”。
  • Sonnet(中等模型):Scott 用它做日常对话,性价比更优。
  • Haiku(轻量模型):用于后台心跳检查、定时任务等低复杂度场景。但 Scott 警告说“不建议用 Haiku,因为它对 prompt injection 的抵抗力很差”。
  • 本地模型:Peter 提到在树莓派等设备上用本地模型做“常驻监听 + 触发词识别”——不是用本地模型替代云端推理,而是用它承担低延迟、低带宽、高隐私要求的“入口层”任务。

这揭示了一个重要的行业现实:在 agent 系统中,推理不是一次性事件,而是持续的、分层的消耗。 一个 7×24 小时运行的个人助手,不可能所有任务都调用最强模型——成本会失控。也不可能所有任务都用本地模型——能力会不够。现实的答案是分层:高频低风险用便宜模型,低频高价值用强模型,常驻监听用本地模型。

这种分层路由本身就是一个非平凡的工程问题:你需要根据任务类型、成本预算、安全要求、延迟容忍度来动态选择模型。而 OpenClaw 把这个选择权交给了用户,而不是替用户决定。


安全的悖论:门槛即防线

三层分离的框架解释了 OpenClaw 的架构选择,但还有一个维度需要单独讨论:安全。

OpenClaw 故意不提供一键安装。Peter 要求用户从终端开始、阅读文档、理解配置。结果社区里出现了“简化安装的作坊产业”——有人写了一键脚本,Peter 对此极为不满。

Scott 给出了一个精准的类比:开源人工胰腺项目(闭环胰岛素泵)同样拒绝一键安装。原因很直接——如果配置错误,后果是致命的。系统要求用户理解整个链路,才允许部署。

OpenClaw 的风险没有那么极端,但逻辑相同:一个能连接真实通讯渠道、执行系统命令、读写文件的 AI 助手,如果被不理解其能力边界的人部署,后果不可预测。

这形成了一个经典的产品悖论:

  • 降低门槛可以扩大用户基数,但增加了误用风险。
  • 维持门槛限制了增长,但让每个用户都经过了“风险教育”。

OpenClaw 选择了后者。这在商业产品中几乎不可能——商业产品的逻辑是最大化用户数,安全问题交给合规团队。但在开源个人工具领域,这种选择是合理的:门槛筛选出了“能为自己的部署负责”的用户群体,从而推迟了“安全债”的爆发。

从战略角度看,这也暗示了 agent 类产品的一个结构性张力:能力越强的 agent,其“合理最小用户门槛”就越高。 这与过去二十年“降低门槛就是好产品”的硅谷共识形成了直接冲突。我们可能正在进入一个新阶段:某些类别的软件,门槛的降低不再是单调的好事。


被低估的两个设计:Canvas 与沉默

在架构之外,OpenClaw 有两个交互层面的设计值得关注。

Canvas:从文本到空间

Scott 在访谈中反复强调“大家都低估了 Canvas”。Canvas 是 OpenClaw 的一个功能,允许 AI 生成 React 视图并渲染在设备屏幕上——不是纯文本,而是图表、按钮、交互界面。

他举了一个例子:让 AI 查血糖数据,生成过去 24 小时的曲线图,叠加日程会议数据,分析压力与血糖的相关性。结果直接渲染在 Canvas 上,可以保存,第二天自动准备好。

这指向了 agent 系统一个经常被忽略的瓶颈:呈现层。 当任务涉及图表、对比、多维数据时,纯文本会迫使用户在脑中做“UI 合成”。Canvas 把这个负担从用户转移到了系统,同时也把 AI 的输出从“一段话”变成了“一个可交互的界面”。

Peter 甚至提到他最初的愿景是“Canvas first, not text first”:每个房间有一块屏幕,AI 知道你在哪里,把信息展示在你面前的 Canvas 上。这个愿景目前还是科幻,但方向明确——AI 的输出介质不应被文本框限制。

NO_REPLY:沉默是一种能力

另一个设计是 NO_REPLY token。当 AI 判断不需要回复时(例如群聊中不相关的消息),它输出 NO_REPLY,系统识别后抑制整条输出。

工程上的挑战在于流式输出:你可能先收到 NO_,再收到 RE,需要在不泄漏标记碎片的前提下准确过滤。但更重要的是设计哲学:在 AI 持续在场的环境里,“不说话”需要被显式设计,而不是默认就会发生。 语言模型的本能是生成文本;沉默是逆本能的,必须用工程手段实现。

这两个设计——Canvas 和 NO_REPLY——共同指向一个趋势:agent 系统的竞争力,越来越取决于“推理之外”的工程。 模型能力是基础,但呈现、交互、礼仪、上下文管理这些“非推理”能力,决定了系统在长期使用中是否可忍受。


战略启示

OpenClaw 是一个开源的个人项目,而非商业产品。但它所面对的架构取舍,对整个“能行动的 AI”领域都有参考价值。

第一,三层分离将成为常态。 当 AI 从“回答问题”走向“执行任务”,控制面、执行面、推理面的分离不是可选项,而是必选项。试图用单一架构包揽三层的产品,最终会在隐私、权限或成本上撞墙。Apple Intelligence 把推理分为“设备端”和“Private Cloud Compute”两层,已经是这个趋势的早期信号。OpenClaw 把它推到了三层。

第二,上下文主权将成为竞争维度。 当 AI 助手从“偶尔使用”变成“持续运行”,用户与助手之间的关系会变得越来越深。谁拥有上下文(对话历史、偏好、记忆、人格设定),谁就拥有这段关系的不可替代性。当前主流产品把上下文锁在平台内;OpenClaw 把上下文落到本地文件。长期来看,用户会越来越意识到这个区别的重要性——正如他们当初意识到照片不应该只存在某个社交平台的服务器上。

第三,门槛经济学需要重新计算。 对于“能行动的 AI”产品,门槛的最优值不再是“越低越好”。能力越强、权限越大、运行越持久的系统,其合理门槛就越高。这不是说要故意制造困难,而是说“理解你在部署什么”本身就是安全的一部分。如何在不增加不必要摩擦的前提下,确保用户建立了正确的心智模型,将成为这类产品的核心设计挑战。

第四,推理分层将驱动模型市场细分。 当 agent 系统 7×24 运行,不同任务需要不同能力/成本/安全级别的模型。这意味着模型厂商的竞争不再只是“谁的旗舰模型最强”,还包括“谁能提供最合理的分层菜单”。一个拥有 Opus/Sonnet/Haiku 三档产品线的厂商,比只有一个旗舰模型的厂商,在 agent 时代更有结构性优势。


结语

《The Rise of The Claw》表面上讲的是一个开源项目,实质上揭示了 AI 产品形态的一次结构性迁移:从“你来找它”到“它来找你”,从“它回答”到“它行动”,从“一次对话”到“持续在场”。

这次迁移带来的不只是新的用户体验,更是一整套新的工程约束——信任如何分配、权限如何锚定、上下文归谁所有、门槛该设多高。

OpenClaw 的三层分离框架(控制面本地化、执行面设备化、推理面混合化),为这些约束提供了一个连贯的回答。它不是唯一的答案,但它是少数几个把取舍明确摆出来的方案。

在 AI 从“能说”到“能做”的转变中,最终胜出的产品,很可能不是模型最强的那个,而是把这些取舍处理得最优雅的那个。