Your Data Agents Need Context
核心观点
企业数据/分析 Agent 大规模失败的根本原因是缺乏业务上下文。Context Layer(上下文层)——包含业务定义、数据源、组织知识的仓库——是 Agent 成功的关键。
三阶段演进
1. 现代数据栈兴起
企业将分散的数据源整合到集中式数据仓库,基于 SQL 的分析和 BI 仪表盘成为标配。
2. Agent 狂热期(2024-2025)
随着 LLM 能力提升,企业争相构建”与数据对话”应用,受开发者热情和管理层自动化压力双重驱动。
3. 撞墙
大多数部署失败。MIT 2025 报告指出”多数失败源于脆弱的工作流、缺乏上下文学习、与运营的错位”。
核心挑战:超越 Text-to-SQL
一个简单查询如”上季度收入增长多少?“暴露出深层问题:
- 业务定义:“收入”到底怎么定义?(Run rate?ARR?)
- 数据源真相:哪些表在多个仓库中包含权威数据?
- 部落知识:过时的语义层和未记录的数据变更
Context Layer 解决方案
现代 Context Layer 应作为传统语义层的超集,包含:
- 规范实体定义
- 身份解析规则
- 业务指标规范
- 治理指南
- 部落知识文档
与静态语义层(在 LookML 中为特定 BI 工具硬编码)不同,Context Layer 应是活的、持续更新的系统。
五步实施框架
- 数据可访问性:确保跨仓库和运营系统的全面数据访问
- 自动化构建:用 LLM 从查询历史和数据模型中提取高信号上下文
- 人工精炼:纳入只有团队拥有的隐性、条件性知识
- Agent 连接:通过 API 或 MCP(Model Context Protocol)暴露上下文
- 自更新流程:维护反映运营变化的动态上下文
市场格局
三类玩家正在涌现:
- 数据引力平台(Databricks、Snowflake):利用现有基础设施推出 AI 分析产品
- AI 数据分析公司:演进以整合 Context Layer 功能
- 新兴 Context Layer 专家:从零构建企业级解决方案
关键洞察
构建有效的数据 Agent 需要平衡技术基础设施(数据工程)与运营挑战(捕获人类知识)。这类似 Palantir 历史上构建组织本体论的商业模式。