AI 产品分析框架

创建日期: 2026-03-12 最后更新: 2026-04-27 用途: 评估 AI 产品的定位、叙事、价值和可行性


框架概述

这个框架是一个活文档,随着我们收集更多行业洞察和案例而不断演进。

每当我们发现有价值的分析维度,就会将其纳入这个框架,形成越来越完整的评估体系。

⚠️ 适用范围说明(2026-04-21 新增)

本框架最初针对 B2B / Agent 工具产品设计。分析消费级内容平台时,部分维度需转换视角:

维度B2B Agent 产品消费级内容平台
时代定位GUI税、Agent-facing、协议优先内容飞轮、创作者生态、文化匹配
商业模式TPD / 按算力收费内容平台分成、创作者经济
Agent-native壁垒(维度9)核心维度基本不适用,改用”内容网络效应”评估
竞争定位平台吃功能、垂类不做 Agent OS平台内化威胁(巨头原生化)、内容差异化

消费级平台的附加核心问题

  • 内容飞轮是否已经转起来?(创作者数量 × 内容质量 × 玩家留存)
  • 巨头是否有动机和能力把这个功能原生化?(占优策略分析)
  • 创作者生态的锁定逻辑是什么?(迁移成本来源)

案例Case - LinearGame Yoroll - AI原生互动影游平台 — 消费级内容平台的首个完整分析样本


互补评估工具

Data Agent 产品分析框架

文档: Data Agent产品分析框架

从 a16z + OpenAI 两篇文章提炼的垂直化分析框架,专用于评估数据驱动的 Agent 产品。

核心论断: Data Agent 的护城河不在模型能力,而在上下文深度。

五维评估:

  1. 上下文深度(六层标尺:Schema → Usage → Annotation → Code → Institutional → Memory)
  2. 推理闭环(自我修正能力)
  3. 信任基础设施(透明性 + 可验证性 + 权限 + 评估)
  4. 集成深度(独立工具 → 多入口 → 工作流引擎)
  5. 上下文维护成本(静态语义层 vs 动态自更新)

何时使用:评估任何以”数据分析”、“BI 智能化”、“Text-to-SQL”为卖点的 AI 产品。


AI 协同产品四轴设计框架

文档: 2026-04-02 - AI协同产品四轴设计框架 - Wayne Zhang

技术趋同后,AI 协同产品的实质差异来自四个设计维度上的立场选择。核心张力围绕 个人 × 组织 × AI 的三角关系。

四轴:

  1. 人机关系(人在场/协同 ↔ 人离场/自主)
  2. 记忆范围(用户级记忆 ↔ 组织级知识)
  3. 约束方式(Prompt 软约束 ↔ 编码硬约束)
  4. 运行位置(用户端本地 ↔ 公司端云端)

使用方式:对任何 AI 协同类产品,在四根轴上各标一个位置。点位重合 = 直接竞品;差异最大的轴 = 真正的差异化来源;位置模糊 = 产品定义不清的信号。

何时使用:评估任何涉及”人 + Agent 协作”的产品(项目管理、编程助手、企业协作、自动化工作流)。


VC 投资评估框架

可用 Skill: vc-investment-evaluator

从风险投资视角评估 AI 产品/开源项目的投资价值。基于 Zoo Capital(管理 20 亿+ 美元)的专业投资框架,专为 AI 周期校准。

何时使用

  • 客户咨询:“VC 为什么拒绝/接受我?”
  • 评估竞品的融资潜力
  • 创业准备:理解 VC 的决策逻辑
  • 判断一个项目是否值得融资

与产品分析框架的区别

产品分析框架VC 投资评估框架
关注产品层面关注投资回报
帮助理解”是不是好产品”帮助理解”是不是好投资”
适合产品研究者、咨询顾问适合创业者、VC

使用方式

从 VC 视角看 InsForge
给 Hermes Agent 打分
评估这个项目的投资价值

分析维度

维度 1: 时代定位 ⭐

核心问题: 这个产品是否站在正确的时代浪潮上?

判断标准:

检验项是/否
产品是否为 AI/Agent 时代原生设计?
是否采用 API-first 架构?
是否考虑了 Agent 作为主要用户的场景?
是否符合”Make something agents want”的方向?

深层洞察:

  • SaaS 的本质解构(@pontusab):

    • 传统 SaaS = 数据库 + 流程推理模板
    • 数据库需要托管(商品化趋势)
    • 流程推理是战场:模板化 → AI 自定义
    • “这完全是撞在 AI 的枪口上”
  • Agent 协作的基础设施需求

    • Agent 需要 Public IP + Domain(可被发现)
    • P2P 技术将被 AI 激活(隐私协作)
    • 最佳实践交流在 Agent 之间展开
  • AI 进化的三阶段陈天桥三阶段):

    • Enable(加法逻辑):旧流程 + AI 插件,人是 CPU
    • Native(乘法逻辑):从第一性原理为 AI 设计,AI 是 CPU
    • Awaken(觉醒):AI 开始定义工作

GUI = 界面税(2026-03-18 新增)

GUI 的存在是一个补偿系统,通过视觉引导、空间布局、即时反馈,帮助一个带宽极度有限的执行者勉强完成任务。Figma 的精美、Notion 的简洁、Linear 的流畅……这些设计溢价的本质是让人类更愿意盯着屏幕。——真格基金钟天杰

核心推论

  • 以用户体验为护城河的软件公司,都是注意力公司的变体
  • 一旦用户不是人类,这种竞争优势就会归零
  • GUI 在 Agent 时代降级为”控制面板”(情绪价值),不再是护城河

Software as Protocols(协议即软件

  • 协议不在乎界面好不好看;协议需要稳定、可靠、无处不在
  • 新时代产品评价体系:接口稳定 = 信用;文档清晰 = 美;响应可预测 = 靠谱;数据独家 = 地位
  • 一旦成为某个 Agent 工作流里的默认调用,后来者便很难替代你

Agent 交互协议化(2026-04-01 新增)

Linear 发布 AIG(Agent Interaction Guidelines),将 Agent 交互从”功能”升级为”协议”:

  • 6 条交互原则 + 完整的 Session/Activity/Signal API
  • delegate ≠ assignee(责任归属的协议级保证)
  • Agent 零成本安装(不计费 = 零采用摩擦)
  • 任何 SaaS 都可以 follow 这套设计让自己 Agent-friendly

核心推论

  • “Agent 友好”将成为 SaaS 的 table stakes(如 2015 年的移动端适配)
  • 独立的 Agent 协作平台(如 Multica)被挤压——各平台会原生实现 Agent 交互
  • Agent 基础设施层(身份、支付、通信)反而受益——更多平台接入 Agent = 更多底层需求

参考依据

Agent 交互范式:触发式与拦截式(2026-04-06 新增)

Agent 协作产品存在两种交互范式,对应陈天桥三阶段的不同天花板:

触发式(对话)拦截式(委派)
交互@agent → 自然回复创建 task → 分配 agent
类比在 Slack 里 @ 同事在 Linear 里创建 ticket
思维模型协作论(平等参与者)控制论(管理者→执行者)
代表产品SlockMultica
天花板Agent 越强 → 对话越少 → 自然走向人离场(Awaken)Agent 越强 → 审批成瓶颈 → 需要重构(卡在 Native)

核心推论:把 Agent 当人(@agent),而不是当任务执行器(assign to agent)。技术细节(worktree/clone)应该消失在交互之下。

理想形态:在四轴框架轴1(人机关系)上可滑动——日常用 @agent 对话,复杂项目切换看板视图。

参考依据


“Enable 伪装成 Native”反面模式(2026-04-04 新增)

一些产品声称 AI Native,实际是在旧产品上贴 AI 标签。识别方法:

检验项Enable 伪装真 Native
拿掉 AI 后?产品”变慢了”(仍可运行)产品”不存在了”
GUI 投入重度多端 GUIAPI/CLI/协议优先
Agent 角色在平台内执行人类指令Agent 是一等用户

反面案例Case - MagiCrew - 伪开源企业AI全家桶 — 去掉 AI 仍是协作办公平台,重度交界面税,垂类在做 Agent OS。


AI Native(AI 原生)定义

从一开始就把 AI 当成核心能力来设计的产品、团队或公司,而不是在传统系统上”后加一个 AI 功能”。

核心特征

  • 产品或公司逻辑本身由 AI 驱动
  • 自动理解需求、生成内容、执行任务、持续优化
  • AI 是 CPU,人类做策略和例外管理

三个判断标准(区分 Enable vs Native):

问题EnableNative
存亡:把 AI 拿掉,业务是”变慢了”还是”不存在了”?变慢了不存在了
流转:谁是”传球”的人?人类AI 之间直接”握手”
记忆:系统是在”消耗”数据还是”吞噬”经验?消耗数据吞噬经验

吞噬经验”的三种范式(2026-04-30 新增)

范式数据形态学习机制优劣
RAG静态文档 + 向量检索用前嵌入,用时检索工程成熟;但知识库需先整理
Fine-tune标注训练集梯度更新参数行为深度内化;但成本高、迭代慢
ORR(Observe-Record-Replay)生产对话本身观察队友给真实用户的回答 → 绑定到原始问题 → 形成 case base冷启动低、grounding 强、持续累积;但依赖团队回答 Day1 问题

ORR 的代表Case - Lucius - 组织context层 — Day1→Day4 学习循环(用户问 → 不会 → 转人工 → 队友答 → 第二个用户同问题直接答)

ORR 的本质:不是新技术,是新的数据来源选择——把”队友给真实用户的真实回答”作为训练数据,天然带 grounding 与情境。这种学习模式适合对外触点 / 客服 / 社区运营等本就有”团队答用户”工作流的场景。

拟物化陷阱

  • ❌ 更快的马车:旧流程 + AI 包装
  • ✅ 真正的内燃机:AI Native 设计

参考依据:

产品案例:


维度 2: 场景边界 ⭐

核心问题: 这个产品是否做对了该做的事?

判断标准:

效率型场景 ✅ 适合

  • 人类不享受的过程
  • 属于摩擦成本
  • 目的就是目的(结果是唯一价值)

检验问题:

如果这件事不存在,人类会高兴吗?

  • 会 → 适合 AI 介入
  • 不会 → 不适合替代

连接型场景 ❌ 不适合

  • 价值在于过程本身
  • 需要情感投入共同经历
  • 过程本身就是目的

能力解锁型场景 ✅ 适合(2026-04-21 新增)

  • 用户之前根本没有入口,而非”有但很慢”
  • AI 打开了一扇之前不存在的门,而不是让已有的门更顺畅
  • 没有”更慢的版本”可供对比

与效率型的区别

  • 效率型:人以前能做,AI 让它更快(代价是过程体验降级)
  • 能力解锁型:人以前做不到,AI 让它变得可能(没有降级问题)

检验问题

没有这个产品,用户做不到这件事,还是做得很慢?

  • 做不到 → 能力解锁型(高价值,难替代)
  • 做得很慢 → 效率型(有价值,但替代成本较低)

案例Case - LinearGame Yoroll - AI原生互动影游平台 — 短视频创作者以前根本没有游戏创作的技能入口,Yoroll 不是”让游戏创作更快”,而是”打开了这扇门”

可应用范围:

  • A2A 产品评估
  • 自动化边界判断
  • 人机协作模式设计
  • 消费级平台的场景定性

参考依据:


维度 3: 叙事策略

核心问题: 产品故事是否清晰、有说服力?

判断要素:

3.1 重新定义 vs 复制

  • ❌ 不是”更好的 X”
  • ✅ 而是”新时代的 X” / “X 2.0”

案例:

  • InsForge: 不是”更好的 Supabase”,而是”AI 时代的 Supabase”
  • Hermes Dashboard: 不是”加 AI 的工具”,而是”AI native 的工具”

3.2 天花板叙事

  • 强调不同的天花板,而非简单的”更好”
  • A 的天花板是 X(有限)
  • B 的天花板是 Y(无限增长)
  • X 不会变,Y 会变强

案例:

  • AdWhiz: Dashboard 的天花板是时间,API 的天花板是 Agent 的能力

3.3 量化价值

  • 用具体数字说话
  • ROI 要直观(省人、省时间、提效)
  • 避免模糊的”更好”、“更快”

案例:

  • Composio: “提升 Agent 准确率 40%”
  • AdWhiz: “省掉一个 performance manager 的招聘”
  • Qveris: “秒级调用上万种工具”

3.4 拟人化叙事

  • 让技术概念有温度
  • “成长”、“记忆”、“队友”等概念容易理解
  • 形成情感连接

案例:

  • Hermes Agent: “队友”、“成长”、“记忆”

3.5 时间窗口叙事

  • 稀缺性(“不超过 5 家”)
  • 时代定位(“Agent 时代”)
  • 紧迫感(“窗口期不会太长”)

3.6 边界清晰

  • 明确适用场景
  • 说明什么时候不用
  • 增加可信度

案例:

  • Hermes Dashboard: “Choose Hermes only if primary workflow is growth execution”

3.7 “X but for Y” 格式

  • 用熟悉的 X 作为锚点
  • 用 Y 定义时代/用户变化
  • 简洁有力,容易传播

案例:

  • db9.ai: “Postgres but for agents”

3.8 “替代清单”价值表达

  • 用”减少”而非”增加”
  • 列出”不再需要”的东西
  • 每行都是成本/复杂度节省

案例:

  • db9.ai: 内建 embedding → 减少独立 pipeline;SQL 内 HTTP → 减少胶水

3.9 “硬约束 vs 软限制”叙事

  • 强调结构性约束 vs 自律
  • 用物理世界的限制概念增加可信度
  • 高风险产品特别需要

案例:

  • agentcard.sh: “额度就是上限”(支付网络层硬约束)

3.10 “反直觉但可检验”叙事

  • 挑战常识(“越多越好”)
  • 提供可检验的对比
  • 用强语言强化问题域

案例:

  • evlog.dev: “日志不是越多越好”;“Your logs are lying to you”

3.11 安全叙事分层

  • 高风险产品需要多层叙事
  • 每层解决不同担忧
  • 从产品到审计形成闭环

案例:

  • agentcard.sh: 产品层(single-use)→ 技术层(加密)→ 流程层(人类审批)→ 审计层(webhook)

3.12 “界面税”叙事(2026-03-20 新增)

核心逻辑:GUI 是人类认知缺陷的补丁,是一种为人类局限性支付的补偿成本。Agent 不需要 UI。

叙事模板

  • “我们不是在做更好看的界面,我们是在消除界面”
  • “你的用户是 Agent,Agent 不需要 UI”
  • “把核心资源投在 CLI/API/MCP 上,你真正的用户在那里”

参考依据2026-03-18 - 我们也许不该再投资 GUI 思维的软件公司 - 真格基金

3.13 “站在 Agent 路径上”叙事(2026-03-20 新增)

新旧逻辑对比

  • 旧逻辑:建一个封闭空间,让用户走进来,用体验把他留住
  • 新逻辑:把自己暴露出去,站在 Agent 执行长程目标的路径上,让它经过时不得不调用你

叙事模板

  • “我们不是一个 App,我们是 Agent 工作流里的必经节点”
  • “每次 Agent 完成这类任务,都必须经过我们”

参考依据2026-03-18 - 我们也许不该再投资 GUI 思维的软件公司 - 真格基金

3.14 “认知卸载”叙事(2026-03-20 新增)

两种价值的区分(对应 Agent 的两个物理约束):

  • 能力解锁:以前做不到的事,现在做到了(突破上下文容量)
  • 认知卸载:以前做得很费力的事,现在很轻松(释放注意力带宽)

叙事模板

  • “我们不是让 Agent 更快,我们是让 Agent 更专注”
  • “把领域推理搬到外部,干扰消失了,剩下每件事都做得更准”
  • “The best context is no context”

参考依据2026-03-17 - 最近一些 Agent 认知:OS 与 Agent-native 应用 - yan5xu

参考依据:

3.15 “质检站/年检”叙事(2026-04-07 新增)

核心逻辑:不做 Agent,不做 Agent 工具,做 Agent 的”质检站”。评测标准 = 行业协议,先定义标准的人就是裁判。

叙事模板

  • “你的 Agent 想上线?先过我们这关”
  • “我们提出了理论,现在提供检测工具”
  • “Agent 越多,质检需求越大——我们站在生态膨胀的必经路径上”

案例

  • HMA: 陈天桥提出 Agent 三阶段 → HMA 度量 Agent 走到哪一步(理论提出者做检测 = 天然权威)

3.16 “PR数据污染最强叙事资产”反模式(2026-04-21 新增)

核心逻辑:当产品拥有一个真实的、具体的、可感的好故事,却用无法独立核实的大数字来包装它,会导致整个叙事的可信度崩塌。

失败路径: 真实故事(具体、可复制、有情感共鸣)→ 被套上未核实的数字 → 数字被质疑 → 整个故事被质疑

反模式案例

正确做法

  • ❌ “百万播放”(无法独立核实)
  • ✅ “3,607 点赞 + 44 条评论 + 71 分享”(可截图、可核实、更可信)
  • ✅ “一个人,一周,从零到第一个互动剧”(过程可复制,无需大数字背书)

可证伪的具体故事 > 不可证伪的宏大数字

适用场景:评估任何产品的叙事策略时,检查”最强案例是否用了无法独立核实的数字”;帮助客户修正 GTM 材料时,建议用可核实的小数字替换可疑的大数字。

3.17 “设计哲学与产品同构”叙事(2026-04-23 新增)

核心逻辑:好产品在**所有层级(对外 tagline → 用户体验 → 内部文档)**贯彻同一种设计哲学。哲学一致性本身就是叙事——它让产品的每一处都互相印证,无法被复制。

检验方法

  • 找到产品最核心的一个设计选择(如”隐性 vs 显性”、“对话 vs 看板”、“主动 vs 被动”)
  • 检查这个选择是否同时体现在:
    • 对外 marketing(tagline / 官网文案)
    • 产品体验(默认行为 / 交互细节)
    • 内部文档(团队 playbook / agent skill 文档)

正面案例Case - Bloome - 人与Agent共存的IM平台 的”隐性原则”

  • 对外 tagline:「AI joins the chat. No switching tabs.」(不强调 AI,强调”加入”)
  • 产品体验:默认 passive listen mode,群里第一句主动声明”我会保持安静”
  • 内部 playbook:「Memory must never announce. The mechanism only works while invisible.」
  • → 三个层级完全同构,没有一处违和

反面对照

  • Slock 的「Agents That Remember」是显性卖点——对外宣传记忆,但产品里需要不主动 announce 才好用,叙事和体验天然张力
  • Multica 的「first-class team members」是口号叙事——产品里 agent 仍然是 assignee 下拉里的一项,并未真正”first-class”

叙事模板

  • “我们的[A]、[B]、[C] 都体现了同一件事:[核心哲学]”
  • “这不是产品功能的一致,是设计哲学的一致”
  • “你在 marketing 里看到的 X,就是你在产品里感受到的 Y”

反模式

  • 对外说 A,产品做 B,内部讲 C — 三层都不通的产品
  • “把所有好词都堆上”的 marketing — 暗示团队没有核心选择
  • 内部文档和对外叙事矛盾 — 团队没想清楚自己在做什么

这是产品成熟度的硬指标:能在所有层级保持哲学一致的团队,一定是经过深度思考的;做不到的团队,要么没想清楚,要么团队规模和分工还没成熟。

参考依据

3.18 “灵魂问句开头”叙事(2026-04-30 新增)

核心逻辑:用一个所有目标用户都立刻共鸣的反差作为开场,把读者放在”我已经看到 AI 有效”的肯定位置上,再问”为什么没传到组织”——情绪 + 问题双锚定。

结构

  1. 承认 AI 有效(不质疑 AI 价值,承认”个体已被 10x”)
  2. 指出组织反差(公司却没快 10x)
  3. 暗示存在某个未被解决的环节(自然引出产品定位)

叙事模板

  • “AI 让 [X] 实现了 [N]x,但 [Y] 还在 [N0]”
  • 用 [X] = 个体 / 用户 / 工程师 等用户已经验证的对象
  • 用 [Y] = 用户也置身其中、但反差未被言说的对象(团队 / 公司 / 行业)

为什么有效:用户不需要被说服 AI 有用——他们已经体验过;用户也已经感受到组织滞后——但说不清楚原因。灵魂问句替他们说出来,所以立刻投入下一段。比”AI 时代的 X”高一档——它不卖时代叙事,卖反差焦虑

适用场景:企业级产品(消费用户没”组织”概念会失效)。

反模式信号

  • “AI 让一切变得不一样” — 反差不具体
  • “传统行业还没拥抱 AI” — 把读者放在否定位置(错误锚点)

案例Case - Lucius - 组织context层 — “Why AI 10x the people, but 0x the company?” 是 Lucius brief 整篇叙事的脊柱


维度 4: 技术可行性

核心问题: 技术实现是否合理?

检验项:

检验项是/否
技术路径是否清晰?
是否有过度承诺?
是否有可验证的 demo?
技术壁垒是否真实存在?
开源项目:是真开源还是 Source Available?

“伪开源”检测清单(2026-04-04 新增)

声称开源的项目,需检查以下信号:

信号健康危险
许可证标准 Apache 2.0/MIT附加商业限制(禁止 SaaS 等)
Stars vs Contributors比例合理(如 vLLM: 50K stars / 2K+ contributors)严重失衡(如 4.7K stars / 20 contributors)
外部贡献者占比≥20% 来自非核心团队<5% 几乎全是内部人员
Open Issues活跃的社区讨论极少(<10),说明社区不参与
技术栈主流生态(Python/Go/Rust)孤立生态(如 PHP 做 AI Agent),社区贡献者池子极小

反面案例Case - MagiCrew - 伪开源企业AI全家桶 — 标称 Apache 2.0 实际禁止多租户 SaaS;4,724 Stars vs 20 Contributors;PHP 后端在 AI 生态中孤立


维度 5: 商业模式

核心问题: 如何赚钱?模式是否可持续?

检验项:

检验项是/否
收入模式是否清晰?
定价是否合理?
是否有网络效应?
客户留存逻辑是否成立?
是否按算力/价值收费而非按人头?

DAU → TPD 的商业模式转变(2026-03-20 新增)

DAU 告诉我们有多少人打开了 ChatGPT,但它无法告诉我们,这些人创造了多少价值。——OpenAI 产品负责人

旧模式(DAU 时代)新模式(TPD 时代)
按人头收费(席位制)按算力消耗收费(Token/算力包)
护城河 = 用户时间护城河 = 用户驱动的算力
增长 = 更多用户增长 = 单用户驱动更多算力
价值 = 注意力价值 = 判断力 × 驱动的算力

关键推论

  • 一个高 TPD 用户的价值,顶得上 1000 个低 TPD 用户
  • 未来 SaaS 按算力包收费:10 人团队驱动 Agent,月消耗 1 亿 Token,收入是传统席位制的 100 倍
  • 检验问题:这个产品的定价,是在收”界面税”还是在收”算力税”?

参考依据


Access Control 已死:稀缺性反演框架(2026-04-27 新增)

AI 让什么变得过剩,那个东西的反面就是新的稀缺,新稀缺就是新收费点。

核心论证(来自 2026-04-24 - Skill是天生带自杀基因的产品 - yage.ai):

旧时代的隐藏假设:创造价值的对象 = 可被独占控制的对象。控制了访问,就控制了价值(Photoshop 安装包 / SaaS 服务器 / Stripe 处理那一笔支付)。

AI 时代的崩塌:每一层”开放”都在拆这个假设的支柱:

  • Skill 开放 → 使用知识从隐性变显性,明文文件复制成本为零
  • 开源模型 → 模型权重不再独占
  • 开源 agent 框架 → 执行链路开放
  • MCP / Agent 协议 → 调用层不再被锁定

结果:价值创造(让 AI 把事情做对)和价值捕获(设置收费点)被强行分开。

新检验问题(叠加在维度 5 现有检验项之上):

问题旧时代假产品真 AI-native
商业模式建立在什么假设上?“我能控制 AI 输出 / 用户访问""AI 输出无法独占,但 [反面稀缺] 可以”
竞品出现开源版本会怎样?商业模式立刻塌反面稀缺继续在,模式依然成立
收费点落在哪里?算力 / 接口 / Token / 调用次数关系 / 此刻 / 物理世界 / 判断品味
长得像什么?老 SaaS 加 AI 功能高级订阅信 / 精品咨询 / 行业协会 / 物理服务

四个反面(已观察到的稀缺类型)

反面对偶(AI 让什么过剩 → 什么稀缺)代表案例收费点位置
关系artifact 过剩 → 持续信任稀缺Substack / Naval / Stratechery把每次产出绑定到一个有持续身份的人
此刻历史信息过剩 → 现在正在发生稀缺Bloomberg Terminal / Polymarket锚定”此刻”的事件,卖速度优势
物理世界比特过剩 → 原子稀缺Stripe + 银行系统 / 医生开药签字价值链上必须落到物理世界的环节
判断品味生成过剩 → 筛选权威稀缺米其林 / Pitchfork / Snyk skill 审计(13.4% critical)在过剩池里建立筛选权威,先定标准的人就是裁判

通用规则:任何可以被生成 / 可以被复制 / 可以被开源平替的东西,都不是反面。反面的特征是「AI 怎么努力都到不了」

反例(不是反面)

  • 算力 / Token:access control 的延伸,会被价格战拆掉
  • 接口 / API 调用次数:调用层标准化趋势已经拆得差不多了
  • 数据本身:数据可以被复制,但对数据的判断(反面 4)不可
  • AI 模型能力:权重已在开源化

与”Skill 天花板 = 卖 copy”(维度 6)的关系

  • 维度 6 的论断是现象描述:Skill 没有外部状态就是裸奔
  • 本框架是更底层的解释:不是 skill 这个具体形态的问题,是整个”AI 输出 = 可控制访问对象”假设的崩塌。Skill 只是这个崩塌最早暴露的形态。

参考依据


三层市场结构:不要 Bundling 套利中间层(2026-04-27 新增)

来源:2026-04-27 - 三层市场结构与inference套利的不可持续 - Nick @ Codex

AI 产品市场已经形成自然分层,每层的竞争维度完全不同:

┌─ 模型层(Models)             ─→  能力竞争(capability)
│   Anthropic / OpenAI / Google
│
├─ 基础设施层(Infrastructure)  ─→  价格竞争(commodity)
│   Inference providers
│
└─ 软件层(Software)           ─→  特性竞争(features)
    The actual tools / harness

失败模式:跨层 bundling = 套利中间层

Cursor / Windsurf / Lovable / Replit / Bolt 等都试图同时占三层 → 实质是用订阅价 1000/月 的 inference 消耗 = “买 100 元电卖 50 元” = VC charity disguised as skyrocketing ARR

新检验问题(叠加在维度 5 现有项之上):

问题健康危险
你在哪一层竞争?单层精专(只做软件层 / 只做基础设施层)跨层 bundling
模型选择是?model-agnostic(最好的模型每月在变)锁定特定模型
定价方式是?transparent pay-what-you-use固定订阅 + 隐藏用量惩罚
代码透明度?开源 harness(信任来自透明度)闭源 + 营销建立信任

用此检验 Cursor:跨层 bundling、订阅制、闭源 → 三个危险信号 → 在与自然市场结构对抗。

用此检验 Cline:单层(软件层)+ open source harness + transparent pricing → 与结构对齐。


固收-变成本「激励时间炸弹」反模式(2026-04-27 新增)

“Most subscription businesses are fixed-revenue, variable-cost — an incentives time bomb.” — Chris Paik

机制:当订阅是固定收入、推理是可变成本时,毛利会被用户使用强度自动侵蚀。维持毛利只有三条路,每条都引爆炸弹:

订阅制 = 固定收入  ❌ 与可变成本错配
       ↓
1. 突然涨价         →  用户翻脸(Cursor 2025-07 涨价翻车)
2. 偷砍上下文窗口    →  silent degradation
3. 悄悄换便宜模型    →  silent degradation

这是诊断 AI 产品健康度的硬指标

检验项健康危险
收入与成本结构是否匹配?固收-固成本 / 变收-变成本固收-变成本(炸弹)
用户是否在抱怨”产品越来越难用”?是(结构退化早期信号)
是否需要靠”突然涨价”或”砍配额”维持毛利?是(炸弹已开始爆)

重要洞察:silent degradation 不是产品经理变笨了,是商业结构数学要求。看到这种现象,不是诊断产品,是诊断结构。

反例对比

  • Cline 的开源 harness + enterprise coordination risk 收费 = 变收-变成本(团队规模 / 审计需求 / 支持工时与企业规模一起涨),结构对齐,没有时间炸弹
  • Bloomberg Terminal $30K/年 = 固收-固成本(实时数据采集成本相对固定),结构对齐
  • Cursor 1000/月 inference = 固收-变成本,时间炸弹

参考依据


维度 6: 竞争定位

核心问题: 为什么是这个产品?

检验项:

检验项是/否
是否有清晰的差异化?
是否重新定义了品类?
是否有护城河?
是否避开巨头核心战场?
水平 vs 垂直定位是否清晰?

新增洞察(2026-03-12)

水平 vs 垂直陷阱

  • 水平型产品的风险:会被大厂用分发优势拿下
    • Meta 收购 Manis 释放明确信号
    • Google、Meta 会把 Agent 能力做进自己的生态
  • 垂直化是创业公司的出路
    • 越垂直,大厂越难全面覆盖
    • 客户黏性更高
    • 水平产品除非做到绝对技术/体验壁垒,否则面临大厂流量压制

垂类不要做 Agent OS(2026-03-20 新增)

Agent 是一种交互范式,就像手机是一种交互范式。垂类不应该尝试做 Agent(做手机),应该做 Agent 上面的应用。——@yan5xu

战场分析

  • Agent OS 的战场:推理能力、编排效率、交互体验
  • 垂类的优势:领域深度、业务理解、行业数据
  • 这两个战场完全不同。拿领域知识去跟 OpenAI/Anthropic 比推理能力,是拿刀打坦克
  • OS 层市场结构天然收敛:PC 时代 Windows/Mac,移动时代 iOS/Android,Agent OS 也不会有几十个赢家

Skill 的天花板 = 卖 copy

  • Prompt(提示词):文本可复制,壁垒为零
  • Script(脚本/API):逻辑可复现,没有外部状态就是裸奔
  • Skill 是接口,接口背后什么都没有,就是在裸奔
  • 你做得越好,抄得越容易;你做得越成功,越多人涌进来做同样的事

参考依据

平台吃功能:独立协作工具被原生实现(2026-04-04 新增)

Agent 友好将成为 SaaS 的 table stakes,就像 2015 年的移动端适配。

验证案例:Linear 发布 AIG(Agent Interaction Guidelines),以完整协议覆盖 Multica 90% 核心功能。独立 Agent 协作平台被平台级玩家原生吃掉。

推论

  • 独立的 Agent 协调层产品(如 Multica)被挤压——各平台会原生实现 Agent 交互
  • Agent 基础设施层反而受益——更多平台接入 Agent = 更多底层需求(身份/支付/通信)
  • 检验问题:这个产品做的事,现有平台加一个 feature 就能覆盖吗?

四轴定位工具:用 2026-04-02 - AI协同产品四轴设计框架 - Wayne Zhang 的四轴(人机关系/记忆范围/约束方式/运行位置)快速判断产品与竞品的差异化来源。点位模糊 = 产品定义不清。

参考依据

NOT Positioning 检验(2026-04-23 新增)

核心问题:这个产品有没有公开的”我不做什么”清单?

核心逻辑:好产品 = 知道自己不做什么。能写出可发表的 NOT 清单的团队 = PMF 训练过、对自己赛道有清晰认知。这是产品成熟度的硬指标

反向例证

产品NOT positioning 状况后果
Multica没有 NOT — 想做”所有 Agent 协作的中枢”Linear AIG 同日发布即被覆盖 90% 功能
Slock模糊 NOT — 聊天室天然边界模糊,AI 同事 vs AI 工具的界限没说死场景定位摇摆,难以聚焦增长
Bloome明确 4 个 NOT(Slack 替代品 >5-10 人 / Notion 第二大脑 / 主力 coding / AI 男女友 / 客服前端)+ 给出 “closest real thing” 映射产品聚焦在 Wedge 1+2,所有功能服务这两个 wedge

检验方法

  1. 产品官网 / 文档 / 团队推文里能否找到”我们不做 X”的明确表态?
  2. 团队能否说出 3 个以上”我们的产品不适合的场景”?
  3. 当用户来需求超出边界,团队是顺势接还是诚实推荐别家?

好的 NOT 清单的特征

  • 给出具体的替代方案(“closest real thing”)——表现出对竞品生态的尊重
  • 解释为什么不做(结构性原因,不是”暂时不做”)
  • 包含反直觉的拒绝(看起来是顺手能做的需求,但拒绝了)

反模式

  • 「我们什么都能做」的产品 — 暗示团队没想清楚自己的边界
  • “暂时还没做 X,未来会做” — 这不是 NOT positioning,是路线图
  • 对所有用户需求都接 — 表面是服务好,实际是 PMF 还没找到

叙事模板

  • “我们不是 X,X 是 [真正适合 X 需求的产品] 的事情”
  • “如果你的需求是 Y,我们诚实地推荐 [别家产品]”
  • “我们能做 [范围],超出这个范围我们的体验会 degrade”

正面案例Case - Bloome - 人与Agent共存的IM平台 — skills 文档里 use-cases/INDEX.md 写死 4 个 NOT 场景 + closest-real-thing 映射

与”水平 vs 垂直陷阱”的关系

  • 水平 vs 垂直是赛道选择问题
  • NOT positioning 是赛道边界问题
  • 一个垂直产品也可能没有 NOT positioning(什么都想做的垂直产品 = 还在找 PMF)

参考依据

同团队范式跃迁活样本(2026-04-30 新增)

现象:被平台吃功能后,同一团队**短期内(1 个月)**完整范式重置——换用户群、换交互范式、换商业模式。

典型样本Case - Multica - Agent协作项目管理(2026-04-01 发布,被 Linear AIG 同日吞噬 90% 功能)→ Case - Lucius - 组织context层(2026-05-19 embargo)。

维度MulticaLucius
心智内部 Agent 协作组织对外触点 context 层
用户1-10 人 dev 团队AI 公司的对外触点团队(社区/客服/产品)
交互拦截式(看板委派)触发 + 主动式(Ask/Answer/Act)
商业开源自托管Conversation 阶梯计费
三框架诊断① ✅ ② ❌ ③ ❌① ✅ ② ✅ ③ ✅
窗口已关闭12-18 月

双面解读

  • 乐观读:team 学到了 AI产品分析框架 维度 1(拦截式天花板)+ 维度 5(AI时代的稀缺性反演框架 反面收费)+ 维度 6(平台吃功能)的全部教训 → 极强 founder market fit signal
  • 保守读:1 个月不足以打磨产品深度,跃迁可能是”理论拼图”——需要 6 个月连续客户留存数据验证

检验问题(用于评估其他被平台吃功能后跃迁的产品):

  1. 跃迁是学到教训后的真转向(用户/范式/商业全换)还是贴 AI 包装(仍在原战场补丁)?
  2. 新定位是否避开了原战场的所有失败因素(特别是平台吃功能 + 拦截式天花板)?
  3. 团队叙事中是否承认前作的失败逻辑?还是回避 / 包装?

与 NOT positioning 的关系:跃迁后能写出”我们之前做错了 X,现在不再做”= 超强 PMF 信号。Multica → Lucius 团队尚未公开承认前作失败(embargo 媒体材料未提 Multica),属于”隐性跃迁”。

拟物化陷阱与主体错位检验(2026-05-11 新增)

核心问题:产品形态是从哪个人类协作场景反向投影来的?这种拟物化是否锁死了 Agent 真实的工作介质?真实需求是不是”上下文整合”或”人类 transcript”,被错误打包成”Agent 协作”?

触发场景:当产品定位含有 “AI 版 X / Agent 时代的 Slack/Discord/邮件/会议 / Agent IM / Agent Team / Multi-Agent 协作”等表述时,必跑此检验。

三个独立观察源(汇向同一结论,参见 Agent IM赛道:批评、豁免与上下文层升级):

反方源火力点关键论断
Viviennn (X)环境错位”Agent 真实工作在 terminal/IDE/workspace/tools,IM 只是人类可见的旁观界面”
movic (小红书)节奏错位”回合制锁死协作带宽,应改为事件驱动 + 可中断推理”
葬AI (微信)主体错位没有 AI 群聊这回事,主体是人类和上下文,AI 只是连接”;单人不需要、多人才需要

三问检验法

  1. 拟物化检验

    • 产品形态是从哪个人类协作场景反向投影来的(Slack/Discord/微信/邮件/会议/工单)?
    • 这个场景里的所有结构性限制(回合制、单一频道、消息序列化),Agent 协作是否必须继承?
    • 反例触发:如果产品宣称”AI 时代的 X” → 大概率是拟物化陷阱,需要进一步证伪
  2. 主体错位检验

    • 产品宣称解决”Agent 之间协作”——单人用户场景下是否需要这个产品?
    • 真实需求是不是 “上下文整合(context bus)” 或 “人类 transcript / 控制权”,被错误打包成 “Agent 群聊”?
    • 葬AI 实测金句:“没有 AI 群聊这回事,主体是人类和上下文”——产品是 Agent 中心还是 context 中心?
  3. 环境错位检验

    • Agent 在这个产品里真实工作的环境真实生效的工具是什么?
    • 是产品本身(IM 窗口),还是 Agent 自己的 terminal/IDE/repo/filesystem?
    • 如果是后者:产品是真护城河还是旁观窗口?真护城河应该在哪个层(context 聚合 / 运行环境桥接 / 持久身份)?
  4. 上下文聚合层检验(2026-05-12 增补,由葬AI 隔日改口论 Bloome 时给出):

    • 产品是在 聚合环境(用户已有的本地电脑 / Claude code 历史会话 / GitHub / 云文档),还是只在 再造一个空白输入框
    • 葬AI 金句:“那种一个输入框的产品已经太多了,用户面对新的输入框就是脑子空空。上下文保存在我们日常工作的环境里。比较通人性的做法是,用一个什么玩意把这些环境连接起来。”
    • 葬AI 钦定路径:“给终端套图形界面的壳” = 对标 YC 投的 Conductor(极简会话管理器),不要假装”Agent 互相对话能提高产出质量”
    • 反例:腾讯元宝派 = “群聊里塞一个空白的 Agent” = 缺上下文 = 同 QQ 小冰 = 古早
    • 与 1-3 项的关系:拟物化/主体/环境错位是症状,上下文聚合是方剂——产品要从”做新形态”切到”连通已有环境”

真护城河的三个可能位置(“Agent 群聊”形态外):

  • 上下文聚合层 — 多人本地/云端 context 同步层(葬AI 指出的真需求)
  • 运行环境中立桥接 — 让 Agent 留在原生环境,IM 只是消息层(Bloome 的 ACP 路线)
  • 跨时间持久身份与记忆 — 承认这是情感陪伴 / 养数字生命方向,叙事要诚实

反面例证

产品拟物化原型暴露度现状
SlockSlack🔴 三方批评全中(环境/节奏/主体错位)葬AI 一个月评测 + n=15+ 调研 = “高级情感陪伴/极客玩具”
Bloome微信/Discord🟡 设计层部分前瞻(5 runtime + ACP + NOT positioning)叙事层需复盘 Wedge 1 是否承认情感陪伴属性
MulticaLinear🟢 看板形态免疫 IM 三方批评但已被平台吃功能(Linear AIG 同日吞噬)

反向的”诚实叙事”路径

  • ❌ 不要:“AI 版的 Slack / Discord / 微信 / 邮件” → 拟物化的招牌话术
  • ❌ 不要:“让 Agent 像同事一样协作” → 把 Agent 强行人格化进入人类协作框架
  • ✅ 可以:“多人 Agent 共享 context bus” → 主体是 context 不是 Agent
  • ✅ 可以:“给 Agent 配一个持久的家” → 承认是数字生命 / 情感陪伴
  • ✅ 可以:“让 Agent 留在原生环境,我们只做消息层” → 承认 IM 是旁观界面

与已有检验项的关系

  • 陈天桥三阶段:拟物化陷阱 = 卡在 Enable 阶段(“更快的马车”);本检验项是该框架的具体落地工具
  • NOT Positioning 检验:好的 NOT 清单本身就排除了拟物化错位(如 Bloome 明确写 “Slack 替代品 >5-10 人 → Slack wins”)
  • 与”水平 vs 垂直陷阱”:拟物化陷阱多发生在水平产品(“AI 时代的 SaaS”),垂直产品也可能踩(“AI 时代的医生/律师/会计”)

叙事金句(来自葬AI 引用投资人郭沫君):

效率赛道一定要做情绪价值,因为你会发现解决实际问题大家都不行。

推论:当一个 Agent IM 产品宣称是效率工具但留存来自情感互动,应主动重定位到情感陪伴赛道,而不是硬扛效率叙事——估值锚点会因此分裂一个数量级

参考依据

基础模型生态分化

  • ChatGPT:大众消费市场(旅游、营养、消费金融)
  • Claude:Pro Zoomer + 专业场景(科研、金融、数据分析)
  • Gemini:创意工具(NotebookLM 开创消费级 AI 音频新品类)
  • 应用商店重合度仅 11%:生态正在分化,护城河加深

场景跃迁:从工具到环境

  • 非 AI 原生产品 AI 化:Canva、Notion(新增 ARR 一半来自 AI 功能)
  • 入口多元化:浏览器、办公套件、桌面端
  • 从被动工具到环境化能力:能融入工作流的产品更有护城河

参考依据:


维度 7: 记忆与个性化 ⭐ NEW

核心问题: 产品是否具备”记住用户”的能力?

背景: a16z 合伙人 Olivia Moore 指出,“未来一到两年,产品必须把’记住你’做成默认体验,否则就会显得残缺。”

检验项:

检验项是/否
是否具备用户记忆能力?
是否从第一次交互就能提供个性化体验?
是否需要冗长的 onboarding?
是否支持工作/生活记忆隔离?

深层洞察:

记忆作为核心优势

  • AI 跟用户聊了两三个月后,价值远高于刚开始
  • 无需冗长 onboarding,从第一次交互就提供高度个性化
  • ChatGPT 账户可能成为跨产品身份:把记忆和 token 带到其他产品
  • 用户自带推理能力,开发者不用付 inference 成本

隐私与记忆隔离

  • 企业合同和个人使用混在一起会产生不适
  • 产品需要支持多人格记忆隔离
  • OpenAI 暗示会在同一产品内为不同 persona 做记忆隔离

产品的”成长”属性

  • 产品和用户的关系从”工具”变成”伙伴”
  • 记忆是这种转变的核心机制
  • 没有记忆的产品会显得”残缺”

参考依据:


维度 8: 文化与市场适配 ⭐ NEW

核心问题: 产品是否考虑了目标市场的文化特征?

背景: AI 采用速度不仅取决于技术,更取决于文化乐观度和市场结构。

检验项:

检验项是/否
是否考虑了目标市场的 AI 信任度?
是否适配了本地化需求?
是否理解区域市场的劳动力结构?
是否考虑了监管环境差异?

深层洞察:

文化乐观度决定采用速度

市场AI 信任度/乐观度影响
美国32% 信任度担忧失业、版权、伦理
中国80% 正面态度快速采用
阿联酋/新加坡50-70% 乐观度最快采用

人均采纳率排名

  1. 新加坡
  2. 香港
  3. 阿联酋
  4. 韩国
  5. 美国(第 20)

劳动力结构影响

  • 新加坡、香港等地:白领比例高,技能匹配度好 → 高采用率
  • 科技化劳动力结构 → AI 使用习惯更容易形成

区域市场特征

  • 中国/俄罗斯:形成平行生态,本土创新(Sedance 2)
  • 韩国:已有 Neighbor、Cacao 等本地化 LLM
  • 印度:语言多样性,对多语种支持要求高

参考依据:


维度 9: Agent-native 壁垒 ⭐ NEW(2026-03-20)

核心问题: 这个产品的护城河是否能在 Agent 时代存活?

背景:Skill(接口)没有外部状态就是裸奔。真正的壁垒需要让接口背后长出不可复制的东西。

三要素检验

壁垒要素描述检验问题
领域状态用户业务上下文,每次交互都在生长用户用得越久,迁移成本是否越高?
基础设施成本领域微调模型、专业知识库、实时数据管线是否需要真金白银持续投入,无法靠复制代码获得?
规模经济同时服务大量用户,单位成本碾压是否存在数学上的成本优势,跟聪不聪明无关?

两种价值类型(对应 Agent 的两个物理约束):

价值类型解决的约束表现
能力解锁上下文容量以前做不到的事,现在做到了
认知卸载注意力带宽以前做得很费力的事,干扰消失了

认知共生(Agent-native 的独特飞轮):

  • 好的 Application 把领域推理从 Agent 的注意力里搬走
  • Agent 注意力不再被干扰 → 其他事情推理更准
  • 更精准地调用更多 Application → Application 获得更多数据 → 变得更好
  • 这是以前计算范式里没有出现过的事:好的 App 让 OS 更聪明

快速判断

  • 有领域状态 + 基础设施 + 规模经济 → Agent-native Application(高壁垒)
  • 只有接口,没有外部状态 → Skill(天花板是卖 copy)
  • 在做 Agent OS 本身 → 垂类找死(战场错了)

参考依据


思维工具箱:分析方法论映射

六个维度告诉你看什么,这些思维模型告诉你怎么想。遇到某类问题时,调用对应的模型可以大幅加速判断。


进化论 → 场景边界(维度 2)

触发条件:产品涉及人类社交、情感、性、地位、归属感等需求时。

核心问题:这个需求是进化出来的原始冲动,还是后天习得的理性需求?AI 替代了这个过程之后,驱动力本身还在吗?

应用逻辑

  • 微信摇一摇的本质是性/社交的原始驱动,刺激感来自”你在摇”,AI 替你摇之后驱动力消失
  • Second Me / Elys 的失败:把”低成本试探陌生人的即时刺激”(进化驱动)替换成了”高质量深度连接”(理性构建),搞错了用户真正想要什么
  • 检验问题:如果 AI 替你完成了这件事,你会感到满足还是空虚?

案例Case - Second Me - AI身份基础设施型社交2026-03-12 - Agent Dating的正确打开方式 - 微信摇一摇启示


第一性原理 → 时代定位(维度 1)

触发条件:感觉行业经验、旧逻辑全都不靠谱,产品所在赛道前所未有。

核心问题:如果从零开始为 AI 时代设计,这个产品会是什么样?现有设计有多少是历史包袱?

应用逻辑

  • Enable vs Native 的判断本质上就是第一性原理:把 AI 拿掉,业务是否存在?
  • SaaS 的定价逻辑、增长逻辑不能直接套到 Agent 产品上
  • 检验问题:这个产品是”旧流程 + AI 插件”还是”从第一性原理为 AI 重新设计”?

案例Case - InsForge - Agent原生数据库(从零为 Agent 设计)vs Case - Hermes Dashboard - GTM Command Center(旧工具套 AI 壳)


反推法 → Bad Cases 识别(贯穿所有维度)

触发条件:正向判断太难,或者产品叙事太精彩让人难以保持清醒时。

核心问题:这个产品在什么条件下一定不成立?最容易被证伪的假设是什么?

应用逻辑

  • A2A 社交伪命题的发现:先问”agent 替你社交后,你得到了什么?” → 什么都没有 → 伪命题
  • 拟物化陷阱识别:先问”这个产品把 AI 拿掉还能用吗?” → 能 → Enable 级别
  • 叙事越精彩,越要用反推法——精彩叙事最容易掩盖根本逻辑问题

案例Case - Second Me - AI身份基础设施型社交Case - Hermes Dashboard - GTM Command Center


微观经济学 → 商业模式(维度 5)

触发条件:分析用户为什么付费、定价是否合理、留存机制是否成立。

核心问题:谁在为什么付费?激励结构是否自洽?用户的付费动机和产品的收费逻辑是否对齐?

应用逻辑

  • AdWhiz “省掉一个 performance manager 招聘” = 替代成本分析,ROI 直观
  • Composio “提升 40% 准确率” = 边际收益量化,但需要验证数字是否可信
  • 检验问题:如果这个产品涨价 10 倍,用户还会付吗?如果免费,用户会真的用吗?

案例Case - AdWhiz - 广告Agent的API路线


博弈论 → 竞争定位(维度 6)

触发条件:涉及多方竞争格局、平台生态、协议标准之争。

核心问题:各方的占优策略是什么?如果最强的竞争对手采取最优策略,这个产品还能活吗?

应用逻辑

  • Composio 的核心威胁:OpenAI / Anthropic 做原生工具调用是否是占优策略?如果是,Composio 的护城河就会被侵蚀
  • MCP 协议之争:谁控制标准,谁赢得生态——这是标准博弈,不是功能竞争
  • 检验问题:这个产品的存在,是否依赖于竞争对手”选择不做”这件事?

案例Case - Composio - AI Agent工具集成平台(模型厂商原生集成的博弈威胁)


可证伪性 → 叙事策略(维度 3)

触发条件:产品主张听起来很有力,但无法验证;或者叙事宏大但缺乏具体数据。

核心问题:这个主张能被独立验证吗?如果不能,它是否只是营销?在什么条件下这个主张会被证伪?

应用逻辑

  • “提升 40% 准确率” → 有没有独立基准测试?测试条件是什么?
  • “秒级调用上万种工具” → 工具质量和可用性能否验证?
  • “Agent 时代的商业操作系统” → 这个主张在什么条件下会被证伪?无法证伪的主张 = 画饼
  • 检验问题:如果这个主张是错的,我们能发现吗?

案例Case - Qveris - Agent时代的基础设施(叙事无法证伪,降级为叙事参考)


委托-代理 → 判断 Agent 能否替代某个岗位或中介

触发条件:评估一个产品是否会被 Agent 颠覆,或者一个 Agent 产品是否真的能替代某个人类角色。

核心逻辑:传统委托-代理关系存在,是因为两个条件同时成立:

  1. 信息不对称:委托方不知道代理方在做什么
  2. 激励不对齐:代理方有自己的利益(懒、私心、惯性)

中介、顾问、销售、客服这些岗位,本质上都是在这两个条件下存在的。Agent 天然消除了激励不对齐——它没有自己的利益,不会懒,没有惯性。这直接让大量中介层失去存在理由。

应用逻辑

  • DoorDash 的护城河是”你饿了、很懒、app 在主屏幕上”——Agent 没有主屏幕偏好,不懒 → 护城河消失
  • 订阅自动续费靠的是用户惯性 → Agent 会自动比价取消冗余订阅 → 商业模式瓦解
  • 支付卡 2-3% 手续费靠的是用户不在意 → Agent 会自动切换稳定币 → 中介层被绕过
  • AdWhiz 能替代 performance manager:广告优化是信息密集型工作,人类 PM 的”激励不对齐”(不够勤快、有认知上限)正是 Agent 的优势所在

检验问题:这个岗位/中介存在的理由,有多少是因为”人类的惯性、懒惰、认知上限”?这部分比例越高,被 Agent 替代的速度越快。

反向应用:如果一个产品的护城河依赖于用户的惯性或信息不对称,Agent 普及后这个护城河会消失。

参考文章2026-03-12 - The 2028 Global Intelligence Crisis - Citrini Research

案例Case - AdWhiz - 广告Agent的API路线(替代 performance manager 的逻辑)


查理芒格多模型 → 复杂产品综合评估

触发条件:产品过于复杂,单一框架无法覆盖;或者各维度结论相互矛盾时。

核心问题:从不同角度看,结论是否一致?哪个模型的结论最有决定性?

应用逻辑

  • 先用反推法找出致命缺陷,如果有,停止分析
  • 再用进化论验证需求是否真实
  • 再用第一性原理判断时代定位
  • 最后用博弈论和微观经济学评估竞争和商业模式
  • 如果多个模型指向同一结论,置信度大幅提升

使用原则:模型越多指向同一方向,结论越可信;如果模型之间矛盾,说明产品本身存在内在张力,需要深挖。


Agent 物理约束 → Agent-native 壁垒(维度 9)(2026-03-20 新增)

触发条件:评估一个产品是否真的是 Agent-native,还是只是一个 Skill(接口)。

核心问题:这个产品是在解决 Agent 的物理约束,还是只是在 Agent 旁边提供一个接口?

两个物理约束(不是 bug,像光速一样不可消除):

  1. 上下文容量:Context 是有限的容器,塞得越多性能越差
  2. 注意力带宽:Agent 同时处理多个任务时,注意力是零和的——就像周伯通双手互搏,左手画圆右手画方,合在一起两个都变形了

应用逻辑

  • 产品是否在突破上下文容量?(能力解锁)
  • 产品是否在释放注意力带宽?(认知卸载)
  • 产品背后是否有领域状态 + 基础设施 + 规模经济?
  • 如果三者都没有,就是 Skill,天花板是卖 copy

检验问题:如果 Agent 的上下文无限大、注意力完美,这个产品还有存在的理由吗?如果没有,它就是在解决真实的物理约束,壁垒是真实的。

参考依据2026-03-17 - 最近一些 Agent 认知:OS 与 Agent-native 应用 - yan5xu


使用指南

风险分层判断(2026-03 新增)

根据验证紧迫性和错误成本,产品可分为三个风险级别:

风险级别判断标准验证策略
高风险验证涉及真实资金/合规,错误成本不可逆小额 PoC,合规尽调
待验证级数据后端,迁移成本高技术验证,成本评估
早期验证级工程效率收益低风险试点,量化收益

案例

  • agentcard.sh(高风险)- 支付涉及真实资金与合规
  • db9.ai(待验证)- 数据后端,迁移成本
  • evlog.dev(早期)- 工程效率,可试点

新产品分析流程

  1. 快速判断(5 分钟)

    • 通过维度 1(时代定位)筛选
    • 通过维度 2(场景边界)验证
    • 如果通不过,直接判定为”反面教材”
  2. 深度分析(30 分钟)

    • 逐个维度打分
    • 找出亮点和风险点
    • 判断是好案例还是反面教材
  3. 案例归档

    • 好案例 → 03_Resources/Good Cases/
    • 反面教材 → 03_Resources/Bad Cases/
    • 在案例笔记中链接到框架的对应维度

框架维护

添加新维度: 当我们发现新的有价值的分析视角时:

  1. 在这个文档中添加新维度
  2. 从相关文章/观点中提取精华
  3. 设计可操作的检验问题
  4. 建立与现有案例的链接

更新维度: 当某个维度需要细化时:

  1. 补充新的检验标准
  2. 添加新的产品案例
  3. 调整权重或优先级

框架演进记录

2026-05-12

  • 增补:维度 6 子项 “拟物化陷阱与主体错位检验” 增加第 4 问 “上下文聚合层检验”
    • 来源:葬AI 隔日(5/12)发文转评 Bloome,把整个赛道重命名为”上下文管理产品”
    • 核心定理:“Bloome、Slock 这类 AI 群聊都是上下文管理产品。一切都关于上下文。”
    • 核心金句:“那种一个输入框的产品已经太多了,用户面对新的输入框就是脑子空空。”
    • 葬AI 钦定路径:“给终端套图形界面的壳”(对标 YC 投的 Conductor)= Bloome 的安全底盘
    • 钦定反例:腾讯元宝派(“群聊里塞一个空白的 Agent” = 缺上下文 = QQ 小冰复刻)
    • 与 1-3 项的关系:拟物化/主体/环境错位是症状,上下文聚合是方剂
  • 回写 Good Case
  • 重命名反方语料库Agent IM赛道的反方观点.mdAgent IM赛道:批评、豁免与上下文层升级
    • 新增 4-A/B/C/D 四节(葬AI 自对比 / 理论升级 / 豁免券三条件 / 留给 Bloome 的两根刺)
    • 客户咨询追问三件套 → 四件套(新增 “Q0 上下文聚合 vs 对话拟物” 作为入口判定)

2026-05-11

  • 新增:维度 6 子项 “拟物化陷阱与主体错位检验”
    • 来源:三方独立反方观点(Viviennn / movic / 葬AI)汇向同一结论
    • 核心论断:Agent IM 是用 Slack/Discord 拟物化包装 Agent 关系的伪范式——真护城河在”上下文整合”层,不在”群聊”层
    • 三问检验法:拟物化检验 / 主体错位检验 / 环境错位检验
    • 真护城河三个可能位置:context 聚合 / 运行环境桥接 / 持久身份记忆
    • 反面例证:Slock(三方全中)/ Bloome(设计层部分前瞻,叙事层需复盘)/ Multica(看板免疫但已被平台吃)
    • 陈天桥三阶段NOT Positioning 检验、“水平 vs 垂直陷阱”的关系图
  • 回写 Good Case “反方观点 2026-05” 段落Case - Slock - AI-native协作聊天室Case - Bloome - 人与Agent共存的IM平台
  • 新增反方语料库Agent IM赛道:批评、豁免与上下文层升级(含三方原始来源 + 三层诊断 + 客户咨询追问三件套;2026-05-12 增补豁免案例与上下文层升级)
  • 叙事金句沉淀(投资人郭沫君,via 葬AI):“效率赛道一定要做情绪价值,因为你会发现解决实际问题大家都不行。“

2026-04-27

  • 新增:维度 5 子项 “Access Control 已死:稀缺性反演框架”
    • 来源:yage.ai《Skill 是天生带自杀基因的产品》
    • 核心论断:AI 让什么过剩 → 反面就是新稀缺 → 反面就是新收费点
    • 四个已观察反面:关系 / 此刻 / 物理世界 / 判断品味
    • 与维度 6 “Skill 天花板 = 卖 copy” 的关系:现象描述(旧)→ 底层解释(新)
  • 新增:维度 5 子项 “三层市场结构:不要 Bundling 套利中间层”
    • 来源:Nick @ Codex(前 Cline)评论
    • 模型层 / 基础设施层 / 软件层各有不同竞争维度,跨层 bundling = inference 套利
    • 健康市场均衡:model-agnostic + transparent pricing + open source harness
  • 新增:维度 5 子项 “固收-变成本『激励时间炸弹』反模式”
    • 来源:Chris Paik(via Nick @ Codex)
    • 订阅制 + 可变推理成本 = 数学逼迫的退化通道
    • 引爆方式:突然涨价 / silent degradation
    • Cursor 2025-07 涨价翻车 = 时间炸弹早期爆裂
  • 新增独立框架笔记AI时代的稀缺性反演框架
    • 提炼为可移植的第一性原理工具
    • 客户咨询场景的三步追问流程
    • 反例清单(什么不算反面)
  • 新增文章链接

2026-04-23

  • 新增:维度 3 子项 3.17 “设计哲学与产品同构”叙事
    • 检验对外叙事 / 产品体验 / 内部文档是否贯彻同一哲学
    • 是产品成熟度的硬指标
    • 正面案例:Bloome 的”隐性原则”在三层完全同构
    • 反面对照:Slock “Agents That Remember” 是显性卖点,与”never announce”产品逻辑张力
  • 新增:维度 6 子项 “NOT positioning 检验”
    • 检验产品有没有公开的”不做什么”清单
    • 是产品成熟度的硬指标
    • 正面案例:Bloome 4 个 NOT 场景 + closest-real-thing 映射
    • 反面例证:Multica 无 NOT,被 Linear AIG 同日吞噬 90% 功能
  • 新增案例链接

2026-04-21

  • 新增:框架适用范围说明
    • 区分 B2B Agent 产品 vs 消费级内容平台的分析路径
    • 消费级平台附加核心问题:内容飞轮、巨头内化威胁、创作者锁定逻辑
  • 深化:维度 2 - 场景边界
    • 新增”能力解锁型”场景(第三种类型)
    • 区别于效率型(“更快”):用户以前根本做不到(“没有入口”)
    • 检验问题:没有这个产品,用户做不到,还是做得很慢?
  • 新增:维度 3 叙事反模式
    • “PR数据污染最强叙事资产”(3.16)
    • 可证伪的具体故事 > 不可证伪的宏大数字
    • 反面案例:Yoroll “百万播放”通稿话术污染华君传叙事
  • 新增案例链接

2026-03-20

  • 新增:维度 9 - Agent-native 壁垒
    • 三要素:领域状态 + 基础设施成本 + 规模经济
    • 两种价值:能力解锁(破容量)+ 认知卸载(释放带宽)
    • 认知共生飞轮:好的 App 让 OS 更聪明
  • 深化:维度 1 - 时代定位
    • GUI = 界面税(人类认知缺陷的补丁)
    • Software as Protocols:稳定 > 好看
    • 一旦用户不是人类,UI 护城河归零
  • 深化:维度 5 - 商业模式
    • DAU → TPD 的商业模式转变
    • 按人头 → 按算力消耗收费
    • 高 TPD 用户价值 = 1000 个低 TPD 用户
  • 深化:维度 6 - 竞争定位
    • 垂类不要做 Agent OS(战场错了)
    • Skill 天花板 = 卖 copy(无外部状态 = 裸奔)
  • 新增叙事模式:界面税、站在 Agent 路径上、认知卸载
  • 新增思维工具:Agent 物理约束模型
  • 新增文章链接

2026-03-14

2026-03-13

2026-03-12 (第三轮更新)

  • 新增:维度 7 - 记忆与个性化
    • 记忆功能将成为核心竞争优势
    • 从”工具”到”伙伴”的关系转变
    • 工作/生活记忆隔离需求
    • ChatGPT 账户可能成为跨产品身份
  • 新增:维度 8 - 文化与市场适配
    • 文化乐观度决定 AI 采用速度
    • 区域市场特征(中国/俄罗斯平行生态)
    • 劳动力结构影响采纳率
  • 扩展:维度 6 - 竞争定位
    • 水平 vs 垂直陷阱
    • 基础模型生态分化(ChatGPT/Claude/Gemini)
    • 场景跃迁:从工具到环境
  • 新增文章链接

2026-03-12 (第二轮更新)

2026-03-12 (初始版本)

  • ✅ 创建框架
  • ✅ 添加维度 1: 时代定位(基于 Aaron Levie 文章)
  • ✅ 添加维度 2: 场景边界(基于 A2A 边界观点)
  • ✅ 添加维度 3: 叙事策略(基于 2026-03 调研总结)
  • ✅ 添加维度 4-6: 技术可行性、商业模式、竞争定位(待完善)
  • 新增:VC 投资评估 Skill(基于 Zoo Capital 框架)
    • 5 维度加权评分卡(满分 10 分)
    • One-Vote Veto 机制
    • 专为 AI 周期校准
  • 深化维度 1:整合 @pontusab 的 SaaS 本质解构观点
    • SaaS = 数据库 + 流程推理模板
    • AI 的机会在于从模板化到自定义流程推理
    • Agent 协作需要 IP/Domain/P2P 基础设施
  • 新增:AI 进化三阶段框架(陈天桥)
    • Enable(加法逻辑):旧流程 + AI 插件
    • Native(乘法逻辑):从第一性原理为 AI 设计
    • Awaken(觉醒):AI 开始定义工作
    • 三个判断标准:存亡、流转、记忆
    • 拟物化陷阱:更快的马车 vs 内燃机

[未来更新]

  • 待补充更多维度
  • 待完善现有维度的检验标准
  • 待添加更多案例链接

相关资源

框架来源

应用案例

反面教材

方法论文档

互补工具

  • VC 投资评估 Skill - 从风险投资视角评估项目
    • 用法:从 VC 视角看 [项目名]给 [项目] 打分
    • 基于 Zoo Capital 的专业投资框架(管理 20 亿+ 美元)
    • 与产品分析框架互补:产品层面 vs 投资层面

标签

framework analysis ai-products evaluation methodology