Your Data Agents Need Context

核心观点

企业数据/分析 Agent 大规模失败的根本原因是缺乏业务上下文。Context Layer(上下文层)——包含业务定义、数据源、组织知识的仓库——是 Agent 成功的关键。

三阶段演进

1. 现代数据栈兴起

企业将分散的数据源整合到集中式数据仓库,基于 SQL 的分析和 BI 仪表盘成为标配。

2. Agent 狂热期(2024-2025)

随着 LLM 能力提升,企业争相构建”与数据对话”应用,受开发者热情和管理层自动化压力双重驱动。

3. 撞墙

大多数部署失败。MIT 2025 报告指出”多数失败源于脆弱的工作流、缺乏上下文学习、与运营的错位”。

核心挑战:超越 Text-to-SQL

一个简单查询如”上季度收入增长多少?“暴露出深层问题:

  • 业务定义:“收入”到底怎么定义?(Run rate?ARR?)
  • 数据源真相:哪些表在多个仓库中包含权威数据?
  • 部落知识:过时的语义层和未记录的数据变更

Context Layer 解决方案

现代 Context Layer 应作为传统语义层的超集,包含:

  • 规范实体定义
  • 身份解析规则
  • 业务指标规范
  • 治理指南
  • 部落知识文档

与静态语义层(在 LookML 中为特定 BI 工具硬编码)不同,Context Layer 应是活的、持续更新的系统

五步实施框架

  1. 数据可访问性:确保跨仓库和运营系统的全面数据访问
  2. 自动化构建:用 LLM 从查询历史和数据模型中提取高信号上下文
  3. 人工精炼:纳入只有团队拥有的隐性、条件性知识
  4. Agent 连接:通过 API 或 MCP(Model Context Protocol)暴露上下文
  5. 自更新流程:维护反映运营变化的动态上下文

市场格局

三类玩家正在涌现:

  • 数据引力平台(Databricks、Snowflake):利用现有基础设施推出 AI 分析产品
  • AI 数据分析公司:演进以整合 Context Layer 功能
  • 新兴 Context Layer 专家:从零构建企业级解决方案

关键洞察

构建有效的数据 Agent 需要平衡技术基础设施(数据工程)与运营挑战(捕获人类知识)。这类似 Palantir 历史上构建组织本体论的商业模式。