Agent Harness 战略：OpenClaw 与个人 AI 的层级解构

每一次平台转换，都会让某一层突然变成战略要地。

PC 时代是操作系统，Web 时代是浏览器，移动时代是 App Store 与通讯录，云时代是 IaaS 之上的 PaaS。轮到生成式 AI，过去三年大家默认的战略要地是模型本身——更大的参数、更长的上下文、更准确的 benchmark。但当模型能力的边际收益开始平缓，“模型即产品”的假设开始松动，一个被很多人忽视的层正在浮出水面：agent harness。

OpenClaw 是这一层目前最具代表性的样本。它不是又一个聊天产品，也不是又一个套壳。它是一个明确把自己定位在“模型与现实之间”的开源 harness 项目，由 Peter Steinberger（前 PSPDFKit 创始人）发起，2025 年底从一个周末 hack 开始，2026 年初突破 100,000 GitHub stars，并在短短数月内吸引了 OpenAI、NVIDIA、Microsoft / GitHub、Atlassian、Tencent 等一众玩家的资源支持。Peter 在 2026 年 2 月宣布加入 OpenAI，OpenClaw 则被放入一个独立基金会，承诺保持开源和模型无关。

这篇文章想要做的事情，不是讲一遍 OpenClaw 的功能清单——它的官网已经做得足够好。我想做的是一件更结构化的事情：用一个分层框架，把“个人 AI agent”这件事拆开，看清 OpenClaw 站在哪一层，为什么这一层会成为战略要地，以及它会如何重塑模型公司、平台、订阅经济与开源社区之间的关系。

按惯例，我们从框架开始。

一、框架：个人 AI 的四层栈

要分析 OpenClaw 的位置，需要一个能把“个人 AI”这件事完整覆盖的栈。我把它分成四层，从下到上：

层级	解决什么问题	当前的代表玩家	关键约束
L1 推理层（Inference）	模型在哪里推理，用什么参数，多快多便宜	OpenAI、Anthropic、Google、DeepSeek、Ollama 本地	能力 / 成本 / 延迟
L2 编排层（Harness）	工具调用、会话状态、记忆、权限、定时、路由	OpenClaw、Codex、Claude Code、Cursor Agent	主权 / 可观测 / 可治理
L3 入口层（Surface）	用户从哪里唤起 agent，如何接收结果	WhatsApp / Telegram / Slack / iMessage / 终端 / 浏览器	在场感 / 触达成本
L4 行动域（Domain）	邮件、日历、代码库、家庭设备、公司系统	Gmail / Calendar / GitHub / 企业 SaaS	数据敏感性 / 责任边界

这个四层栈解释了一件容易被忽视的事情：今天大众认为的“AI 产品”，绝大多数同时塌缩在 L1 + L3——模型自带一个 chat surface，剩下两层缺位。 这就是为什么 ChatGPT、Claude、Gemini 在用户日常生活里的渗透深度远比想象中浅——它们能聊得很好，但很难“在场”，更很难“做事”。

OpenClaw 的关键洞察，是把战略重心明确放在 L2，并通过 L2 把 L3 与 L4 连起来。换句话说，它做的不是另一个聊天界面，也不是另一个模型，而是一个让“任何模型”在“任何入口”中操作“任何行动域”的中间层。

我们一层一层看。

二、L1 解构：模型为什么不再是唯一的护城河

过去三年，模型公司主导了产业叙事。每一次更大的模型出来，市值、估值、人才流向都会重新分布一次。这背后的隐含假设是：模型能力的差距会持续扩大，能力差距会自动转化为产品差距。

2026 年的现实正在挑战这个假设。

第一，前沿模型之间的能力差距在变窄。不同 lab 的 SOTA 模型在大多数 benchmark 上互相错位领先，差距越来越难被普通用户感知。

第二，开源模型在追赶。DeepSeek、Qwen、Llama 衍生模型在很多任务上已经能跑出“够用”的效果，且可以本地部署。

第三，任务质量越来越依赖 harness 和上下文，而不是单次推理质量。给同一个模型不同的工具、记忆、prompts、反馈循环，结果差异常常大于换一个模型的差异。

这三件事合起来，说明一件结构性的事情：模型仍然是必需的，但不再是稀缺的；harness 才是当下最具杠杆的一层。

OpenClaw 对 L1 的处理非常符合这一判断——它默认 model-agnostic，文档里同时支持 OpenAI、Anthropic、Google、DeepSeek、Ollama、Qwen、Z.AI 等众多 provider；用户可以按任务、按成本、按隐私在不同模型之间切换。

这种 provider abstraction 看起来只是一个工程选择，但战略意义巨大：

它把模型选择权还给用户和 harness，而不是让模型公司锁定用户；
它让 harness 可以利用模型公司之间的竞争——谁的推理便宜、快、稳，谁就在 OpenClaw 里被更多调用；
它让 harness 自身的价值可以独立于任何一家模型公司增长。

历史上，每当一个抽象层成功把下层商品化，价值就会向那个抽象层迁移。Linux 把硬件商品化，Kubernetes 把容器主机商品化，Stripe 把发卡行 / 网关商品化。OpenClaw 在做的事情，本质上是把模型推理商品化——并不是说模型本身没价值，而是说从用户的视角，模型变成了“可替换的下层组件”。

这对模型公司意味着什么？我们后面会回到这个问题。

三、L2 解构：Harness 为什么是战略要地

把 harness 单独拎出来作为一层，是这个框架最关键的一步。

很多人会问：harness 不就是一些胶水代码吗？为什么值得单独成为一层？

答案是——一旦 agent 真的开始“做事”，胶水代码就会演化成一个完整的 runtime：

工具调用系统：exec / browser / web search / file I/O / apply_patch / message / cron / image / TTS / sessions / subagents——每一个都不是简单封装，而是要处理超时、重试、流式、错误、边界。
会话状态管理：session 文件、上下文窗口预算、工具结果裁剪、人类反馈插入位点。
记忆系统：短期上下文、长期记忆、durable memory 的提炼与召回（OpenClaw 用 dreaming 描述后台整理）。
路由系统：multi-agent routing，按 workspace、sender、channel 把不同请求路由到不同 agent 或不同模型。
持续运行时：heartbeat、cron、hooks、standing orders——agent 能在没有人发消息时自己醒来做事。
权限与审批：allow / deny lists、tool profiles、per-action gating、sandboxing、secrets references。
可观测性：transcripts、session logs、E2E tests、行为追溯。
扩展机制：skills（注入上下文的指导文件）、plugins（打包能力的分发单位）。

这些东西加起来，就是一个 agent operating system。它的复杂度，已经接近一个轻型 Kubernetes——不同的 workload、不同的资源、不同的策略、不同的隔离边界。

Harness 之所以是战略要地，是因为它同时拥有四种集中效应：

(1) 上下文集中。 用户和 agent 的所有交互、状态、记忆都流经 harness。Harness 是唯一同时知道“你是谁”、“你做过什么”、“你能授权什么”的层。

(2) 工具集中。 行动域被工具抽象，工具被 harness 调用。哪个工具能跑、能跑成什么样，是 harness 的策略问题。

(3) 模型集中。 在 model-agnostic 设计下，harness 决定哪一刻调用哪个模型——这意味着它实际上在替用户做“模型采购”。

(4) 信任集中。 用户对 agent 的所有信任，最终都落在 harness 上——它会不会越权、会不会泄密、会不会被 prompt injection 绕过。

任何一层同时出现这四种集中效应时，它就具有平台属性。OpenClaw 在 L2 的位置，使它在结构上与 iOS / Android 在移动端的位置相似——它本身不是内容、不是模型、不是入口，但它定义了“内容、模型、入口怎样彼此发生关系”。

这是 harness 真正的战略含义。

四、L3 解构：入口分散化与“AI 不再是目的地”

第三层是入口，也是 OpenClaw 区别于绝大多数 AI 产品的地方。

当前主流 AI 产品默认的入口策略是——让用户进入 AI 的目的地。新 App、新网页、新订阅。这套策略的逻辑很自然：自有界面 = 用户数据 = 留存 = 商业化空间。

但有一个事实被低估了：用户的注意力和沟通早已被现有入口锁定。 WhatsApp 月活超过 30 亿，Telegram 接近 10 亿，Slack / Teams 占据工作时间的几乎全部，iMessage 在很多地区是默认沟通工具。让用户为了 AI 切换入口，是一种昂贵的迁移。

OpenClaw 选择了相反的策略。它把 agent 直接接入用户已经在使用的消息入口：WhatsApp、Telegram、Slack、Discord、Signal、iMessage、Google Chat、Microsoft Teams。这意味着 agent 不再是用户要“打开”的东西，而是已经“在场”的东西。

这种入口策略的战略含义有两层：

(1) 触达成本骤降。 用户不需要养成新的习惯。Agent 出现在他每天看 200 次的应用里。

(2) AI 从“目的地”变成“环境”。 这个转变非常关键——目的地需要被主动访问，环境只需要被偶尔感知。Ambient AI 是个被说烂的词，但 OpenClaw 是少数把它做出来的项目。

用 Aggregation Theory 的视角看：传统 AI 产品试图自己 aggregate 用户注意力，OpenClaw 选择把自己 plug into 已经存在的 aggregator（WhatsApp 们）。这是一种与 aggregator 共生而非竞争的位置。短期看不性感，长期看可能更稳——因为它和入口的零和博弈被回避了。

值得注意的是：这种策略对模型公司是一个挑战。因为模型公司大多数时候不能直接进入这些入口（出于平台政策、品牌策略、数据合规等原因），它们只能依赖 harness 把自己的能力分发到这些入口。这反过来又强化了 harness 的战略位置。

五、L4 解构：行动域与“责任边界”

第四层是行动域——agent 真正“做事”的地方。

OpenClaw 的工具列表给出了行动域的覆盖范围：终端命令、浏览器自动化、网页搜索、文件读写、邮件、日历、消息发送、代码 patch、图像、TTS、语音、定时任务、子 agent。

行动域的关键约束不是技术，而是责任。

每一个行动域都对应一个真实世界的后果链。错发的邮件不能撤回；错改的代码会进入生产；错调用的 API 会产生账单；错执行的命令可能丢数据。这意味着 agent 在行动域上的设计，从一开始就必须把“责任、审批、回滚、审计”作为一等公民，而不是附加功能。

OpenClaw 在这一层的策略可以归纳为四条：

能力可分割：tools 通过 allow / deny list 和 tool profiles 控制；不同 agent / 不同 session 可以有完全不同的能力切片。
行动可审批：per-action gating，敏感动作需要人类批准。
状态可回放：session logs、transcripts、可见 transcript mirror，让任何行动都能被复盘。
边界可隔离：one trusted person per agent——如果用于家庭、团队、公司，必须按 trust boundary 拆分 agents 和 credentials。

这套设计背后的判断很清晰：行动域不是“AI 能做什么”，而是“AI 被允许做什么”。 这是一个权限工程问题，不是一个智能问题。

模型再聪明，也不能替你决定它能不能动你的银行账户、能不能给客户发邮件、能不能合并你的主分支。这些是制度问题，必须由 harness 强制执行。

六、聚合理论的视角：OpenClaw 在聚合谁

把上面四层合起来，可以用 Aggregation Theory 重新审视一次：OpenClaw 在聚合什么？

答案不是用户，也不是内容，而是——模型 × 工具 × 入口 × 行动域的笛卡尔积。

每一个用户在 OpenClaw 中的一次实际行动，都是一个 (模型, 工具, 入口, 行动域) 的具体组合。比如：

(Claude Sonnet, browser tool, Telegram, 航班值机)
(本地 Llama, exec tool, 终端, 清理日志)
(GPT-5, apply_patch tool, iMessage, GitHub PR)
(DeepSeek, calendar tool, WhatsApp, 安排周末)

OpenClaw 的价值，不是在某一格里做到最优，而是把这些格子之间的“组合空间”管理起来——让用户在任意一格的成本接近于零，让 plugin 作者可以新增任意一格的可能性。

这是一种典型的组合性聚合：聚合的不是节点，而是节点之间的连接方式。当组合空间足够大、足够顺滑、足够可治理，价值就会自动向这一层流入。

历史上能做到这一点的层都很值钱：OS、浏览器、Stripe、AWS。它们都不是某种内容或服务的提供者，而是不同提供者之间的连接策略。

OpenClaw 想成为 agent 时代的同类玩家。它能不能成功是另一个问题，但它的位置选择是清晰的。

七、与模型公司的零摩擦——直到不再零摩擦

L1 与 L2 的关系，是这个框架里最复杂的一段。

短期看，两者完全互利。模型公司提供推理，harness 提供使用场景，用户付钱。OpenClaw 这种 harness 给模型公司带来的是真实的、高频的、跨任务的调用——这是模型公司梦寐以求的负载。

但长期看，结构性张力不可避免，原因有两个：

(1) 调用模式的错位。 传统聊天订阅是“轻量、间歇、单 session”的模式，单价被定在用户能接受的水平。而 harness 驱动的 agent 调用是“重型、持续、多 session、并行”的模式——清理收件箱可能一次跑几十次工具循环，每次循环都是一次推理。

订阅经济学是按平均用户行为定价的；harness 用户的行为远高于平均。这就是为什么 2026 年 3 月 The Verge 报道 Anthropic 调整 Claude 订阅规则——第三方 harness 不再被普通订阅覆盖，必须走 pay-as-you-go 或 API key。

Business Insider 报道里 Peter 的回应也很直接——很多用户购买 Claude 订阅恰恰是因为 OpenClaw，切断这种支持会带来损失。

这件事不是“谁对谁错”，而是订阅经济学和 agent 调用模式之间的结构性不匹配。它必然会发生在每一家模型公司身上，无论 OpenClaw 是否存在。

(2) 价值捕获位置的争夺。 当 harness 同时掌握上下文、工具、模型选择和信任，它就具备了在某一刻把模型供应商替换掉的能力。从模型公司的角度，这是一个长期的战略风险——它可能在任何时刻被一个本地小模型 + 外部大模型组合替代，而用户感知不到差异。

这就是为什么模型公司本身也在做 harness——Claude Code、Codex、ChatGPT Atlas / Operator、Gemini in Workspace。它们试图在 L2 也建立存在感，避免被 OpenClaw 这样的中间层完全套壳。

但这里有一个微妙的策略问题：模型公司做的 harness 天然是 model-locked，而 OpenClaw 是 model-agnostic。 在用户对“控制权”越来越敏感的环境里，model-agnostic 是一个越来越重要的卖点。这是 OpenClaw 真正的护城河——不是它写得有多好，而是它的政治位置——它对每一家模型公司都中立。

八、Peter 加入 OpenAI 的战略含义

这就让 2026 年 2 月那个看起来矛盾的事件有了更清晰的解释：Peter 加入 OpenAI，OpenClaw 进入基金会，由 OpenAI 提供 inference 与 Codex Security 支持，但承诺保持开源与独立。

从 OpenAI 的角度看：

它不能容忍 L2 完全独立于自己。 谁掌握 harness，谁就掌握模型分发的关键节点。
但它也不能直接收购 OpenClaw 并闭源。 一旦闭源，OpenClaw 的政治中立性会瞬间崩塌——其他模型公司会停止合作，社区会 fork，用户会迁移。OpenAI 等于杀了它再吃掉。
唯一可行的策略是“支持但不拥有”。 把项目放入基金会，由 OpenAI 提供资源，但不主导治理。这样既能确保 OpenAI 在 L2 有友好接口，又能保留 OpenClaw 的中立性，从而保留它的生态价值。

从 Peter 的角度看：

他不想再做一家公司。 他自己说过，13 年公司游戏已经够了。
他需要资源。 Harness 的运营、安全、治理超出个人能力。
他需要保持项目的开放承诺。 否则项目本身的吸引力会消失。
基金会 + 大公司支持是一个被验证过的开源模式（Linux Foundation, CNCF, Apache）。

这种结构性安排很像 Linux 与 Linux Foundation——核心人物在大公司就职，项目本身归基金会所有，多家公司提供资源，整体保持中立。

它带来的代价是协调成本。基金会需要在多家利益不一致的赞助方之间维持平衡。但它带来的好处也是清晰的——OpenClaw 不会被任何一家公司完全俘获。

对其他模型公司而言，这个安排其实是积极信号——只要 OpenClaw 真的保持中立，他们继续接入 OpenClaw 的成本是可控的。

对开源社区而言，挑战在于监督基金会是否真的中立。开源历史上，基金会被赞助方实质俘获的案例不少。OpenClaw 会不会重蹈覆辙，要看后续治理结构能否经得起观察。

九、安全：Agent 时代的“持续合规成本”

任何在 L2 取得成功的项目，迟早要面对一个外部强加的成本：安全治理。

OpenClaw 在这件事上走完了一个相当典型的曲线：

项目爆火 → 攻击面被放大 → 大量 security advisories 涌入 → 真假混杂 → 团队疲惫 → 必须建立流程。

Peter 在 2026 年 4 月的安全博客里给出了具体数字：自 1 月 10 日以来收到 1,309 个 security advisories，其中 535 个已发布，746 个被关闭为 invalid。同时他承认确实修复了 auth bugs、privilege confusion、reconnect scope widening、sandbox bypasses、unsafe env、approval mistakes 等真实问题。

这个比例很有意思——超过一半的报告无效，但剩下的真实问题足以构成一份不薄的复盘清单。这是开源 + 高曝光 + 高敏感度组合的典型表现。

OpenClaw 后续的安全策略可以被概括为四条原语：

Trust model 显式化：SECURITY.md 明确定义“谁信任谁、信任到什么程度”。
Core 缩小、能力外推：把更多能力从 core 移到 plugins，缩小核心攻击面。
能力扫描制度化：与 VirusTotal 合作，对 ClawHub skills 做确定性打包、SHA-256、VirusTotal 查询、Code Insight 分析、自动批准 / 标记 / 阻断、每日重扫。
secrets 与 env 引用化：避免 secrets 直接出现在上下文里，统一通过 references 调用。

这些都是经典的纵深防御做法。但更关键的是 Peter 在博客里写下的那一句——open 和 safe 不是对立面；open 反而是走向安全的方式。

这句话有战略含义。它把开源从“可能不安全”翻转为“不开源才不安全”。背后的逻辑是：

闭源 harness 的攻击面同样大，只是没人能从外部看到；
Prompt injection、权限滥用、插件投毒、凭证泄露这些问题，闭源也消除不了；
一旦闭源 harness 出现严重事故，用户没有审计与迁移能力；
开源 harness 至少给了攻击者与防御者对称的可见性。

在监管即将到来的现实里（欧盟 AI Act、美国 EO 系列、行业自律标准），开源 harness 的可审计性会越来越成为机构客户采购的硬标准。OpenClaw 的安全路线本质上是在为这种未来做准备。

十、四个推论：OpenClaw 模式对产业的启示

把上面所有分析合起来，可以推出四个对从业者有用的判断。

推论 1：未来五年，agent harness 层的价值捕获能力会高于纯模型层。

理由是：模型在被商品化，harness 在被平台化。商品化层的利润率长期下降，平台化层的利润率长期上升。这不是说模型不值钱，而是说“做模型 + 卖 token”的商业模式利润空间会被压缩。

模型公司的对应策略：要么自己做强 harness 并锁定垂直场景，要么主动支持开放 harness 并争取在其中拿到最大调用份额。Anthropic 与 OpenAI 在这件事上的路径会出现明显分叉。

推论 2：消费 AI 的入口最终不是 App，而是消息层。

理由是：消息层是用户注意力天然的聚合器，是 ambient AI 的最低成本路径，且天然具备身份、社交、上下文。所有想做“个人 agent”的玩家，要么自己拥有消息层（很难），要么和消息层共生（OpenClaw 路线）。

这意味着模型公司单独做 native app 的边际收益会持续下降。我们已经看到 ChatGPT App 在第二年的增长曲线开始放缓——这不是产品做得不好，而是 surface 选择本身就有天花板。

推论 3：信任和数据控制将取代“智能水平”成为下一阶段的差异化轴。

理由是：当模型能力变得足够好且趋同时，用户开始关心的是——“它会不会越权、它知道我什么、它把数据存在哪里”。这是 OpenClaw 把“自托管 / 本地 / 模型可换 / 数据在自己手里”作为核心卖点的根本原因。

这对企业级 AI 尤其重要——CIO 不会因为某模型快 10% 就购买，但会因为它能本地部署而签五年合同。

推论 4：开源 + 基金会 + 多元赞助会成为 agent 基础设施的主流治理模式。

理由是：harness 既需要规模化资源，又必须保持中立。这两件事只能通过基金会模式同时实现。这条路在 Linux、Kubernetes、PostgreSQL、Apache 系上已经被反复验证。OpenClaw 的基金会路径只是把同一个剧本搬到 agent 时代。

十一、Peter Steinberger 的位置：一个工程审美的样本

写到这里，Peter 本人值得单独说几句。

他不是一个典型的 AI 创始人。他不卖愿景，也不预测未来。他做过 PSPDFKit——一个 PDF SDK 公司，13 年时间，一笔超过 1 亿欧元的投资，客户名单里是 Dropbox、DocuSign、SAP、IBM、Volkswagen。这段经历给他塑造了一种很特别的工程审美——对开发者基础设施的耐心。

这种审美在 OpenClaw 的设计里随处可见：

选择消息层而不是新 App，是因为他知道用户迁移成本之高；
选择 model-agnostic 而不是 model-locked，是因为他知道单一供应商的脆弱；
选择把 core 缩小、把能力推到 plugins，是因为他知道“小核心 + 可扩展”是基础设施的长寿之道；
选择把 trust model 显式写进 SECURITY.md，是因为他知道用户最终关心的不是功能，而是权责。

他在《Just Talk To It》《Shipping at Inference-Speed》《Finding My Spark Again》这些博客里反复表达的，不是“AI 多神奇”，而是——AI 编程是一种新技能，需要练习、需要边界、需要管理、需要对系统负责。

他对 vibe coding 的不耐烦、对过度设计 MCP 的批评、对“代码责任不能外包”的强调，全部指向同一个底色：他是一个把工程当作长期手艺的人。

这种气质在 AI 时代特别稀缺，因为它会被快节奏的叙事掩盖。但当我们把 OpenClaw 这样一个项目从兴奋点剥离开来、放到产业结构里看时，它的真正价值，其实就是这种工程审美在 agent 时代的一次完整投影。

结语：Harness Era 才刚刚开始

把整篇文章浓缩成一句话——模型决定 AI 能做什么，harness 决定 AI 真的会做什么。

OpenClaw 是这一判断在 2026 年的第一个大众可见的样本。它不会是最后一个。我们大概率会在 18 个月内看到：

更多 model-agnostic harness 出现，覆盖编程、办公、家庭、企业等不同场景；
模型公司同时推出 model-locked harness，争夺垂直入口；
几个 open harness 标准（工具协议、记忆协议、权限协议）开始竞争事实标准位置；
监管开始把 harness 列入 AI 系统合规审查范围；
大型企业把 harness 选择视为核心采购决策，而不仅仅是模型选择。

OpenClaw 当然有可能在这场演化里被超越，但它已经把一个非常重要的事实留给了产业——harness 不是模型的附属品，而是 AI 真正进入现实世界的入口策略层。

PC 时代是操作系统，Web 时代是浏览器，移动时代是 App Store，AI 时代是 agent harness。每一次，价值都从最显眼的地方迁移到了一个看起来不显眼、但结构上更关键的位置。

OpenClaw 的故事，不过是这种迁移在 2026 年留下的一个清晰脚印。