最近一些 Agent 认知:OS 与 Agent-native 应用

作者: @yan5xu 发布时间: 2026-03-17 原文链接: https://x.com/yan5xu/status/2033721014413402303 互动数据: 👍 416 | 🔁 79 | 👁 143,850 | 🔖 718


一、Agent 是 OS,垂类做 OS 是找死

1/ Agent 是一种交互范式,就像手机是一种交互范式。你通过手机购物、社交、理财,但不会为了购物专门买一部手机。Agent 也一样。垂类不应该尝试做 Agent(做手机),应该做 Agent 上面的应用。

2/ 因为战场完全不同。Agent 的战场是推理能力、编排效率、交互体验。垂类的优势是领域深度、业务理解、行业数据——这些优势在 OS 战场上一点用都没有。你拿领域知识去跟 OpenAI、Anthropic 比推理能力,是拿刀去打坦克。

3/ 而且 OS 层的市场结构天然收敛。PC 时代活下来 Windows 和 Mac,移动时代活下来 iOS 和 Android。Agent OS 也不会有几十个赢家。你花三年做垂类 Agent 正面硬刚,这三年本可以在自己的领域建一座别人进不来的根据地。

二、Skill 也不行——天花板是卖 copy

4/ 不做 Agent,那做 Skill 行不行?Skill 有两面:prompt 和 script。

5/ Prompt 是一组提示词,给 Agent 一个点拨。有价值,但推理工作仍然是 Agent 自己干的,而且 prompt 是文本,文本可以被复制。

6/ Script 是封装好的外部逻辑——脚本、二进制程序、API。逻辑在外部执行,Agent 不用自己推理这个领域问题了。比 prompt 好一步——从”指路”变成了”代劳”。

7/ 但 script 如果没有外部状态——没有数据库、没有用户积累、输入进去结果出来什么都不留下——那逻辑就是可复现的。别人看懂你的思路,重写一个,功能一模一样。

8/ 所以 skill 的天花板就是卖 copy。和卖 Notion 模板、卖 GPTs 一个性质。你做得越好,抄得越容易;你做得越成功,越证明需求存在,越多人涌进来做同样的事。Skill 是接口,接口背后什么都没有,就是在裸奔。

三、Agent 的两个物理约束

9/ Agent 有两个物理约束。不是 bug,不是下一代模型能修的。像光速一样,你不能许愿它消失,只能围绕它做工程。

10/ 第一个:上下文容量。 Context 是有限的容器,塞得越多性能越差。

11/ 第二个:注意力带宽。 金庸笔下周伯通有一门双手互搏术——左手画圆、右手画方。单独画圆,很简单。单独画方,也简单。合在一起,两个都变形了。不是手不够用,是注意力在两个任务之间打架。Agent 同时在一个 context 里做法律推理、追踪用户意图、规划下一步行动——每件事的质量都下降。注意力是零和的。

12/ 如果 Agent 有无限容量和完美注意力,什么都自己做就行了,不需要任何人。但现实是:容量有限,带宽有限。Agent-native Application 存在的根本原因,就是这两个物理约束。

四、Agent-native Application

13/ Skill 可复现的根源是”没有外部状态”。解法就是让接口背后长出不可复制的东西。三样:

14/ 领域状态——用户在你这里的业务上下文,每次交互都在生长。法律服务记住案件进度和判例引用,投资服务记住持仓逻辑和调仓理由。越用越厚,别人从零开始追不上。

15/ 基础设施成本——领域微调的小模型、专业知识库、实时数据管线。真金白银持续投入,不是复制一段代码能拥有的。

16/ 规模经济带来的成本优势——同时服务十万个用户,基础设施单位成本碾压任何人自己搭。数学优势,跟聪不聪明没关系。

17/ Skill 背后有这三样,就不再是 skill,是 Agent-native Application。

18/ Application 给 Agent 提供两种价值,对应两个物理约束:

  • 能力解锁:突破上下文容量,那些塞不进 context 的领域知识和用户历史,Application 在外面管着,调一下就能用。
  • 认知卸载:释放注意力带宽,领域推理搬到外部,不再跟其他任务打架。不是做得快了,是干扰消失了,剩下每件事都做得更准。

19/ 领域状态不是 memory。Memory 是通用记忆管理,那是 Agent OS 层的课题。领域状态是用户在某个垂类里的业务上下文,边界清晰的业务状态机。别人抄得走你的 skill,抄不走你的根据地。

五、OS 与 Application

20/ 两边各有各的命题。OS 的命题是 WHAT——在有限容量和带宽下,帮用户完成尽可能多、尽可能好的事。Application 的命题是 HOW——每次被调用时提供最大的领域价值。OS 决定做什么,Application 决定怎么做。

21/ 以前的计算范式里,App 和 OS 是单向关系。Word 不会让 Windows 更快,淘宝不会让 iOS 更流畅。Agent 范式里不一样——好的 Application 会让 Agent OS 变得更聪明。法律 Application 把法律推理从 Agent 的注意力里搬走,注意力不再被干扰,其他事情推理更准,于是更精准地调用更多 Application,Application 获得更多数据,变得更好……飞轮转起来了。

这是认知共生——一个通用智能和一个专精智能通过接口耦合,比各自单独运行都更强。以前的计算范式里没有出现过这种事。

22/ The best context is no context. Agent 越轻,表现越好。


结构化总结

因果主链:Agent 是 OS → 垂类做 OS 是找死 → Skill 天花板是卖 copy → 根本原因:两个物理约束(上下文容量 + 注意力带宽)→ 解法:Agent-native Application → 两种价值:能力解锁 + 认知卸载 → OS 与 Application 认知共生

三层光谱

  • 指令(Prompt):指路,带宽不减,壁垒为零
  • 工具(Script):代劳,带宽降低,无状态则壁垒低
  • 服务(Application):代劳 + 持久状态 + 基础设施,壁垒高

OS vs Application 分界

  • OS 持有:用户意图 + 跨域上下文(WHAT)
  • Application 持有:领域状态 + 业务历史(HOW)

good-case framing research agent agent-native os application