Agent Harness 战略:OpenClaw 与个人 AI 的层级解构

Agent Harness 战略:OpenClaw 与个人 AI 的层级解构

每一次平台转换,都会让某一层突然变成战略要地。

PC 时代是操作系统,Web 时代是浏览器,移动时代是 App Store 与通讯录,云时代是 IaaS 之上的 PaaS。轮到生成式 AI,过去三年大家默认的战略要地是模型本身——更大的参数、更长的上下文、更准确的 benchmark。但当模型能力的边际收益开始平缓,“模型即产品”的假设开始松动,一个被很多人忽视的层正在浮出水面:agent harness

OpenClaw 是这一层目前最具代表性的样本。它不是又一个聊天产品,也不是又一个套壳。它是一个明确把自己定位在“模型与现实之间”的开源 harness 项目,由 Peter Steinberger(前 PSPDFKit 创始人)发起,2025 年底从一个周末 hack 开始,2026 年初突破 100,000 GitHub stars,并在短短数月内吸引了 OpenAI、NVIDIA、Microsoft / GitHub、Atlassian、Tencent 等一众玩家的资源支持。Peter 在 2026 年 2 月宣布加入 OpenAI,OpenClaw 则被放入一个独立基金会,承诺保持开源和模型无关。

这篇文章想要做的事情,不是讲一遍 OpenClaw 的功能清单——它的官网已经做得足够好。我想做的是一件更结构化的事情:用一个分层框架,把“个人 AI agent”这件事拆开,看清 OpenClaw 站在哪一层,为什么这一层会成为战略要地,以及它会如何重塑模型公司、平台、订阅经济与开源社区之间的关系。

按惯例,我们从框架开始。

一、框架:个人 AI 的四层栈

要分析 OpenClaw 的位置,需要一个能把“个人 AI”这件事完整覆盖的栈。我把它分成四层,从下到上:

层级 解决什么问题 当前的代表玩家 关键约束
L1 推理层(Inference) 模型在哪里推理,用什么参数,多快多便宜 OpenAI、Anthropic、Google、DeepSeek、Ollama 本地 能力 / 成本 / 延迟
L2 编排层(Harness) 工具调用、会话状态、记忆、权限、定时、路由 OpenClaw、Codex、Claude Code、Cursor Agent 主权 / 可观测 / 可治理
L3 入口层(Surface) 用户从哪里唤起 agent,如何接收结果 WhatsApp / Telegram / Slack / iMessage / 终端 / 浏览器 在场感 / 触达成本
L4 行动域(Domain) 邮件、日历、代码库、家庭设备、公司系统 Gmail / Calendar / GitHub / 企业 SaaS 数据敏感性 / 责任边界

这个四层栈解释了一件容易被忽视的事情:今天大众认为的“AI 产品”,绝大多数同时塌缩在 L1 + L3——模型自带一个 chat surface,剩下两层缺位。 这就是为什么 ChatGPT、Claude、Gemini 在用户日常生活里的渗透深度远比想象中浅——它们能聊得很好,但很难“在场”,更很难“做事”。

OpenClaw 的关键洞察,是把战略重心明确放在 L2,并通过 L2 把 L3 与 L4 连起来。换句话说,它做的不是另一个聊天界面,也不是另一个模型,而是一个让“任何模型”在“任何入口”中操作“任何行动域”的中间层。

我们一层一层看。

二、L1 解构:模型为什么不再是唯一的护城河

过去三年,模型公司主导了产业叙事。每一次更大的模型出来,市值、估值、人才流向都会重新分布一次。这背后的隐含假设是:模型能力的差距会持续扩大,能力差距会自动转化为产品差距。

2026 年的现实正在挑战这个假设。

第一,前沿模型之间的能力差距在变窄。不同 lab 的 SOTA 模型在大多数 benchmark 上互相错位领先,差距越来越难被普通用户感知。

第二,开源模型在追赶。DeepSeek、Qwen、Llama 衍生模型在很多任务上已经能跑出“够用”的效果,且可以本地部署。

第三,任务质量越来越依赖 harness 和上下文,而不是单次推理质量。给同一个模型不同的工具、记忆、prompts、反馈循环,结果差异常常大于换一个模型的差异。

这三件事合起来,说明一件结构性的事情:模型仍然是必需的,但不再是稀缺的;harness 才是当下最具杠杆的一层。

OpenClaw 对 L1 的处理非常符合这一判断——它默认 model-agnostic,文档里同时支持 OpenAI、Anthropic、Google、DeepSeek、Ollama、Qwen、Z.AI 等众多 provider;用户可以按任务、按成本、按隐私在不同模型之间切换。

这种 provider abstraction 看起来只是一个工程选择,但战略意义巨大:

  • 它把模型选择权还给用户和 harness,而不是让模型公司锁定用户;
  • 它让 harness 可以利用模型公司之间的竞争——谁的推理便宜、快、稳,谁就在 OpenClaw 里被更多调用;
  • 它让 harness 自身的价值可以独立于任何一家模型公司增长。

历史上,每当一个抽象层成功把下层商品化,价值就会向那个抽象层迁移。Linux 把硬件商品化,Kubernetes 把容器主机商品化,Stripe 把发卡行 / 网关商品化。OpenClaw 在做的事情,本质上是把模型推理商品化——并不是说模型本身没价值,而是说从用户的视角,模型变成了“可替换的下层组件”。

这对模型公司意味着什么?我们后面会回到这个问题。

三、L2 解构:Harness 为什么是战略要地

把 harness 单独拎出来作为一层,是这个框架最关键的一步。

很多人会问:harness 不就是一些胶水代码吗?为什么值得单独成为一层?

答案是——一旦 agent 真的开始“做事”,胶水代码就会演化成一个完整的 runtime:

  1. 工具调用系统:exec / browser / web search / file I/O / apply_patch / message / cron / image / TTS / sessions / subagents——每一个都不是简单封装,而是要处理超时、重试、流式、错误、边界。
  2. 会话状态管理:session 文件、上下文窗口预算、工具结果裁剪、人类反馈插入位点。
  3. 记忆系统:短期上下文、长期记忆、durable memory 的提炼与召回(OpenClaw 用 dreaming 描述后台整理)。
  4. 路由系统:multi-agent routing,按 workspace、sender、channel 把不同请求路由到不同 agent 或不同模型。
  5. 持续运行时:heartbeat、cron、hooks、standing orders——agent 能在没有人发消息时自己醒来做事。
  6. 权限与审批:allow / deny lists、tool profiles、per-action gating、sandboxing、secrets references。
  7. 可观测性:transcripts、session logs、E2E tests、行为追溯。
  8. 扩展机制:skills(注入上下文的指导文件)、plugins(打包能力的分发单位)。

这些东西加起来,就是一个 agent operating system。它的复杂度,已经接近一个轻型 Kubernetes——不同的 workload、不同的资源、不同的策略、不同的隔离边界。

Harness 之所以是战略要地,是因为它同时拥有四种集中效应:

(1) 上下文集中。 用户和 agent 的所有交互、状态、记忆都流经 harness。Harness 是唯一同时知道“你是谁”、“你做过什么”、“你能授权什么”的层。

(2) 工具集中。 行动域被工具抽象,工具被 harness 调用。哪个工具能跑、能跑成什么样,是 harness 的策略问题。

(3) 模型集中。 在 model-agnostic 设计下,harness 决定哪一刻调用哪个模型——这意味着它实际上在替用户做“模型采购”。

(4) 信任集中。 用户对 agent 的所有信任,最终都落在 harness 上——它会不会越权、会不会泄密、会不会被 prompt injection 绕过。

任何一层同时出现这四种集中效应时,它就具有平台属性。OpenClaw 在 L2 的位置,使它在结构上与 iOS / Android 在移动端的位置相似——它本身不是内容、不是模型、不是入口,但它定义了“内容、模型、入口怎样彼此发生关系”。

这是 harness 真正的战略含义。

四、L3 解构:入口分散化与“AI 不再是目的地”

第三层是入口,也是 OpenClaw 区别于绝大多数 AI 产品的地方。

当前主流 AI 产品默认的入口策略是——让用户进入 AI 的目的地。新 App、新网页、新订阅。这套策略的逻辑很自然:自有界面 = 用户数据 = 留存 = 商业化空间。

但有一个事实被低估了:用户的注意力和沟通早已被现有入口锁定。 WhatsApp 月活超过 30 亿,Telegram 接近 10 亿,Slack / Teams 占据工作时间的几乎全部,iMessage 在很多地区是默认沟通工具。让用户为了 AI 切换入口,是一种昂贵的迁移。

OpenClaw 选择了相反的策略。它把 agent 直接接入用户已经在使用的消息入口:WhatsApp、Telegram、Slack、Discord、Signal、iMessage、Google Chat、Microsoft Teams。这意味着 agent 不再是用户要“打开”的东西,而是已经“在场”的东西。

这种入口策略的战略含义有两层:

(1) 触达成本骤降。 用户不需要养成新的习惯。Agent 出现在他每天看 200 次的应用里。

(2) AI 从“目的地”变成“环境”。 这个转变非常关键——目的地需要被主动访问,环境只需要被偶尔感知。Ambient AI 是个被说烂的词,但 OpenClaw 是少数把它做出来的项目。

用 Aggregation Theory 的视角看:传统 AI 产品试图自己 aggregate 用户注意力,OpenClaw 选择把自己 plug into 已经存在的 aggregator(WhatsApp 们)。这是一种与 aggregator 共生而非竞争的位置。短期看不性感,长期看可能更稳——因为它和入口的零和博弈被回避了。

值得注意的是:这种策略对模型公司是一个挑战。因为模型公司大多数时候不能直接进入这些入口(出于平台政策、品牌策略、数据合规等原因),它们只能依赖 harness 把自己的能力分发到这些入口。这反过来又强化了 harness 的战略位置。

五、L4 解构:行动域与“责任边界”

第四层是行动域——agent 真正“做事”的地方。

OpenClaw 的工具列表给出了行动域的覆盖范围:终端命令、浏览器自动化、网页搜索、文件读写、邮件、日历、消息发送、代码 patch、图像、TTS、语音、定时任务、子 agent。

行动域的关键约束不是技术,而是责任

每一个行动域都对应一个真实世界的后果链。错发的邮件不能撤回;错改的代码会进入生产;错调用的 API 会产生账单;错执行的命令可能丢数据。这意味着 agent 在行动域上的设计,从一开始就必须把“责任、审批、回滚、审计”作为一等公民,而不是附加功能。

OpenClaw 在这一层的策略可以归纳为四条:

  1. 能力可分割:tools 通过 allow / deny list 和 tool profiles 控制;不同 agent / 不同 session 可以有完全不同的能力切片。
  2. 行动可审批:per-action gating,敏感动作需要人类批准。
  3. 状态可回放:session logs、transcripts、可见 transcript mirror,让任何行动都能被复盘。
  4. 边界可隔离:one trusted person per agent——如果用于家庭、团队、公司,必须按 trust boundary 拆分 agents 和 credentials。

这套设计背后的判断很清晰:行动域不是“AI 能做什么”,而是“AI 被允许做什么”。 这是一个权限工程问题,不是一个智能问题。

模型再聪明,也不能替你决定它能不能动你的银行账户、能不能给客户发邮件、能不能合并你的主分支。这些是制度问题,必须由 harness 强制执行。

六、聚合理论的视角:OpenClaw 在聚合谁

把上面四层合起来,可以用 Aggregation Theory 重新审视一次:OpenClaw 在聚合什么?

答案不是用户,也不是内容,而是——模型 × 工具 × 入口 × 行动域的笛卡尔积

每一个用户在 OpenClaw 中的一次实际行动,都是一个 (模型, 工具, 入口, 行动域) 的具体组合。比如:

  • (Claude Sonnet, browser tool, Telegram, 航班值机)
  • (本地 Llama, exec tool, 终端, 清理日志)
  • (GPT-5, apply_patch tool, iMessage, GitHub PR)
  • (DeepSeek, calendar tool, WhatsApp, 安排周末)

OpenClaw 的价值,不是在某一格里做到最优,而是把这些格子之间的“组合空间”管理起来——让用户在任意一格的成本接近于零,让 plugin 作者可以新增任意一格的可能性。

这是一种典型的组合性聚合:聚合的不是节点,而是节点之间的连接方式。当组合空间足够大、足够顺滑、足够可治理,价值就会自动向这一层流入。

历史上能做到这一点的层都很值钱:OS、浏览器、Stripe、AWS。它们都不是某种内容或服务的提供者,而是不同提供者之间的连接策略。

OpenClaw 想成为 agent 时代的同类玩家。它能不能成功是另一个问题,但它的位置选择是清晰的。

七、与模型公司的零摩擦——直到不再零摩擦

L1 与 L2 的关系,是这个框架里最复杂的一段。

短期看,两者完全互利。模型公司提供推理,harness 提供使用场景,用户付钱。OpenClaw 这种 harness 给模型公司带来的是真实的、高频的、跨任务的调用——这是模型公司梦寐以求的负载。

但长期看,结构性张力不可避免,原因有两个:

(1) 调用模式的错位。 传统聊天订阅是“轻量、间歇、单 session”的模式,单价被定在用户能接受的水平。而 harness 驱动的 agent 调用是“重型、持续、多 session、并行”的模式——清理收件箱可能一次跑几十次工具循环,每次循环都是一次推理。

订阅经济学是按平均用户行为定价的;harness 用户的行为远高于平均。这就是为什么 2026 年 3 月 The Verge 报道 Anthropic 调整 Claude 订阅规则——第三方 harness 不再被普通订阅覆盖,必须走 pay-as-you-go 或 API key。

Business Insider 报道里 Peter 的回应也很直接——很多用户购买 Claude 订阅恰恰是因为 OpenClaw,切断这种支持会带来损失。

这件事不是“谁对谁错”,而是订阅经济学和 agent 调用模式之间的结构性不匹配。它必然会发生在每一家模型公司身上,无论 OpenClaw 是否存在。

(2) 价值捕获位置的争夺。 当 harness 同时掌握上下文、工具、模型选择和信任,它就具备了在某一刻把模型供应商替换掉的能力。从模型公司的角度,这是一个长期的战略风险——它可能在任何时刻被一个本地小模型 + 外部大模型组合替代,而用户感知不到差异。

这就是为什么模型公司本身也在做 harness——Claude Code、Codex、ChatGPT Atlas / Operator、Gemini in Workspace。它们试图在 L2 也建立存在感,避免被 OpenClaw 这样的中间层完全套壳。

但这里有一个微妙的策略问题:模型公司做的 harness 天然是 model-locked,而 OpenClaw 是 model-agnostic。 在用户对“控制权”越来越敏感的环境里,model-agnostic 是一个越来越重要的卖点。这是 OpenClaw 真正的护城河——不是它写得有多好,而是它的政治位置——它对每一家模型公司都中立。

八、Peter 加入 OpenAI 的战略含义

这就让 2026 年 2 月那个看起来矛盾的事件有了更清晰的解释:Peter 加入 OpenAI,OpenClaw 进入基金会,由 OpenAI 提供 inference 与 Codex Security 支持,但承诺保持开源与独立。

从 OpenAI 的角度看:

  • 它不能容忍 L2 完全独立于自己。 谁掌握 harness,谁就掌握模型分发的关键节点。
  • 但它也不能直接收购 OpenClaw 并闭源。 一旦闭源,OpenClaw 的政治中立性会瞬间崩塌——其他模型公司会停止合作,社区会 fork,用户会迁移。OpenAI 等于杀了它再吃掉。
  • 唯一可行的策略是“支持但不拥有”。 把项目放入基金会,由 OpenAI 提供资源,但不主导治理。这样既能确保 OpenAI 在 L2 有友好接口,又能保留 OpenClaw 的中立性,从而保留它的生态价值。

从 Peter 的角度看:

  • 他不想再做一家公司。 他自己说过,13 年公司游戏已经够了。
  • 他需要资源。 Harness 的运营、安全、治理超出个人能力。
  • 他需要保持项目的开放承诺。 否则项目本身的吸引力会消失。
  • 基金会 + 大公司支持是一个被验证过的开源模式(Linux Foundation, CNCF, Apache)。

这种结构性安排很像 Linux 与 Linux Foundation——核心人物在大公司就职,项目本身归基金会所有,多家公司提供资源,整体保持中立。

它带来的代价是协调成本。基金会需要在多家利益不一致的赞助方之间维持平衡。但它带来的好处也是清晰的——OpenClaw 不会被任何一家公司完全俘获。

对其他模型公司而言,这个安排其实是积极信号——只要 OpenClaw 真的保持中立,他们继续接入 OpenClaw 的成本是可控的。

对开源社区而言,挑战在于监督基金会是否真的中立。开源历史上,基金会被赞助方实质俘获的案例不少。OpenClaw 会不会重蹈覆辙,要看后续治理结构能否经得起观察。

九、安全:Agent 时代的“持续合规成本”

任何在 L2 取得成功的项目,迟早要面对一个外部强加的成本:安全治理

OpenClaw 在这件事上走完了一个相当典型的曲线:

  • 项目爆火 → 攻击面被放大 → 大量 security advisories 涌入 → 真假混杂 → 团队疲惫 → 必须建立流程。

Peter 在 2026 年 4 月的安全博客里给出了具体数字:自 1 月 10 日以来收到 1,309 个 security advisories,其中 535 个已发布,746 个被关闭为 invalid。同时他承认确实修复了 auth bugs、privilege confusion、reconnect scope widening、sandbox bypasses、unsafe env、approval mistakes 等真实问题。

这个比例很有意思——超过一半的报告无效,但剩下的真实问题足以构成一份不薄的复盘清单。这是开源 + 高曝光 + 高敏感度组合的典型表现。

OpenClaw 后续的安全策略可以被概括为四条原语:

  1. Trust model 显式化:SECURITY.md 明确定义“谁信任谁、信任到什么程度”。
  2. Core 缩小、能力外推:把更多能力从 core 移到 plugins,缩小核心攻击面。
  3. 能力扫描制度化:与 VirusTotal 合作,对 ClawHub skills 做确定性打包、SHA-256、VirusTotal 查询、Code Insight 分析、自动批准 / 标记 / 阻断、每日重扫。
  4. secrets 与 env 引用化:避免 secrets 直接出现在上下文里,统一通过 references 调用。

这些都是经典的纵深防御做法。但更关键的是 Peter 在博客里写下的那一句——open 和 safe 不是对立面;open 反而是走向安全的方式

这句话有战略含义。它把开源从“可能不安全”翻转为“不开源才不安全”。背后的逻辑是:

  • 闭源 harness 的攻击面同样大,只是没人能从外部看到;
  • Prompt injection、权限滥用、插件投毒、凭证泄露这些问题,闭源也消除不了;
  • 一旦闭源 harness 出现严重事故,用户没有审计与迁移能力;
  • 开源 harness 至少给了攻击者与防御者对称的可见性。

在监管即将到来的现实里(欧盟 AI Act、美国 EO 系列、行业自律标准),开源 harness 的可审计性会越来越成为机构客户采购的硬标准。OpenClaw 的安全路线本质上是在为这种未来做准备。

十、四个推论:OpenClaw 模式对产业的启示

把上面所有分析合起来,可以推出四个对从业者有用的判断。

推论 1:未来五年,agent harness 层的价值捕获能力会高于纯模型层。

理由是:模型在被商品化,harness 在被平台化。商品化层的利润率长期下降,平台化层的利润率长期上升。这不是说模型不值钱,而是说“做模型 + 卖 token”的商业模式利润空间会被压缩。

模型公司的对应策略:要么自己做强 harness 并锁定垂直场景,要么主动支持开放 harness 并争取在其中拿到最大调用份额。Anthropic 与 OpenAI 在这件事上的路径会出现明显分叉。

推论 2:消费 AI 的入口最终不是 App,而是消息层。

理由是:消息层是用户注意力天然的聚合器,是 ambient AI 的最低成本路径,且天然具备身份、社交、上下文。所有想做“个人 agent”的玩家,要么自己拥有消息层(很难),要么和消息层共生(OpenClaw 路线)。

这意味着模型公司单独做 native app 的边际收益会持续下降。我们已经看到 ChatGPT App 在第二年的增长曲线开始放缓——这不是产品做得不好,而是 surface 选择本身就有天花板。

推论 3:信任和数据控制将取代“智能水平”成为下一阶段的差异化轴。

理由是:当模型能力变得足够好且趋同时,用户开始关心的是——“它会不会越权、它知道我什么、它把数据存在哪里”。这是 OpenClaw 把“自托管 / 本地 / 模型可换 / 数据在自己手里”作为核心卖点的根本原因。

这对企业级 AI 尤其重要——CIO 不会因为某模型快 10% 就购买,但会因为它能本地部署而签五年合同。

推论 4:开源 + 基金会 + 多元赞助会成为 agent 基础设施的主流治理模式。

理由是:harness 既需要规模化资源,又必须保持中立。这两件事只能通过基金会模式同时实现。这条路在 Linux、Kubernetes、PostgreSQL、Apache 系上已经被反复验证。OpenClaw 的基金会路径只是把同一个剧本搬到 agent 时代。

十一、Peter Steinberger 的位置:一个工程审美的样本

写到这里,Peter 本人值得单独说几句。

他不是一个典型的 AI 创始人。他不卖愿景,也不预测未来。他做过 PSPDFKit——一个 PDF SDK 公司,13 年时间,一笔超过 1 亿欧元的投资,客户名单里是 Dropbox、DocuSign、SAP、IBM、Volkswagen。这段经历给他塑造了一种很特别的工程审美——对开发者基础设施的耐心

这种审美在 OpenClaw 的设计里随处可见:

  • 选择消息层而不是新 App,是因为他知道用户迁移成本之高;
  • 选择 model-agnostic 而不是 model-locked,是因为他知道单一供应商的脆弱;
  • 选择把 core 缩小、把能力推到 plugins,是因为他知道“小核心 + 可扩展”是基础设施的长寿之道;
  • 选择把 trust model 显式写进 SECURITY.md,是因为他知道用户最终关心的不是功能,而是权责。

他在《Just Talk To It》《Shipping at Inference-Speed》《Finding My Spark Again》这些博客里反复表达的,不是“AI 多神奇”,而是——AI 编程是一种新技能,需要练习、需要边界、需要管理、需要对系统负责。

他对 vibe coding 的不耐烦、对过度设计 MCP 的批评、对“代码责任不能外包”的强调,全部指向同一个底色:他是一个把工程当作长期手艺的人。

这种气质在 AI 时代特别稀缺,因为它会被快节奏的叙事掩盖。但当我们把 OpenClaw 这样一个项目从兴奋点剥离开来、放到产业结构里看时,它的真正价值,其实就是这种工程审美在 agent 时代的一次完整投影

结语:Harness Era 才刚刚开始

把整篇文章浓缩成一句话——模型决定 AI 能做什么,harness 决定 AI 真的会做什么。

OpenClaw 是这一判断在 2026 年的第一个大众可见的样本。它不会是最后一个。我们大概率会在 18 个月内看到:

  • 更多 model-agnostic harness 出现,覆盖编程、办公、家庭、企业等不同场景;
  • 模型公司同时推出 model-locked harness,争夺垂直入口;
  • 几个 open harness 标准(工具协议、记忆协议、权限协议)开始竞争事实标准位置;
  • 监管开始把 harness 列入 AI 系统合规审查范围;
  • 大型企业把 harness 选择视为核心采购决策,而不仅仅是模型选择。

OpenClaw 当然有可能在这场演化里被超越,但它已经把一个非常重要的事实留给了产业——harness 不是模型的附属品,而是 AI 真正进入现实世界的入口策略层。

PC 时代是操作系统,Web 时代是浏览器,移动时代是 App Store,AI 时代是 agent harness。每一次,价值都从最显眼的地方迁移到了一个看起来不显眼、但结构上更关键的位置。

OpenClaw 的故事,不过是这种迁移在 2026 年留下的一个清晰脚印。