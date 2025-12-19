每个组织都需要问题解决者。我说的是那些独立工作者——他们不屑于低效企业中那种事事亲力亲为的模式，却有足够自信洞察言外之意。当软件展现出这种智能时，我们会说“它就是好用”。若是员工，我们会说“她总能心领神会”。
而另一端的群体则截然相反，满是推诿、拖延与犹豫不决。这类人往往行动滞后，或依据过时信息行事，却会拖慢所有进度，最后总是让人说出职场中最无奈的那句话：“还是我自己来吧。”
如果您正在阅读这篇博客，想必已经了解：数百万 AI 智能体，将在未来几年内被构建和部署。IBM 商业价值研究院的数据显示，70% 的受访高管表示智能体式 AI 对其未来战略至关重要。问题在于，您要部署的是哪种类型的智能体——是问题解决者，还是问题制造者？
两者的差异源于一个常见的“敌人”：数据孤岛。在试点阶段的理想条件下，人们很容易陷入乐观偏见；而到了全面部署的关键阶段，也就是企业级推广时，大型企业的复杂性会阻碍进展。错综复杂的工作流程、零散的治理体系以及不一致的数据访问机制，导致每个智能体都沦为一次性维护难题。本应提升生产力的工具，最终却严重消耗生产力。这可称之为 AI 领域的“讽刺现象”。
要实现规模化，组织必须全面协调所有智能体，打造一支治理规范、可与现有工具轻松整合的 AI 协作团队。当协调机制发挥作用时，流程会趋于协同，数据孤岛会逐渐消失，AI 的潜力也会转化为实际成果。但仅靠协调，并不足以在 AI 竞赛中胜出。数据才是核心的差异化要素。正是这股力量让您的智能体——所有智能体，不仅仅是 POC 测试用例——精通您的业务，且足够可信，能够自主开展工作。
毕竟，通用数据只会催生通用 AI，其输出与竞争对手的产品如出一辙，毫无特色。更糟糕的是，管理不善的数据可能让 AI 沦为负债——它传播错误的速度和范围，远比人类所能达到的更快、更广。
市场花了太久才意识到为 AI 准备数据的重要性，这一疏忽导致投资回报率迟迟无法兑现，一系列统计数据也表明，大多数组织仍停留在试点阶段。事实上，麻省理工学院 (MIT) 的一份报告显示，受访组织中仅有 5% 已将 AI 工具规模化整合到工作流程中。
目前，各组织正向数据相关计划投入数十亿美元，行业正经历一场重大调整。IBM 商业价值研究院即将发布的调查数据显示，2025 年约 13% 的 IT 预算将分配给数据战略，而 2022 年这一比例仅为 4%。同样，82% 的受访 CDO 表示，他们正在招聘去年尚未存在的新职位。
目标显然是为您的 AI 赋予专属且可信的数据，让您的企业具备独特竞争力。当您或您的客户向 AI 发出提示时，它应该返回与上下文相关、且符合您组织目标、价值观及监管义务的信息。智能体式 AI 进一步加大了风险。当您启动智能体并授权其做出决策、追求明确目标时，您必须相信它对您的业务、企业文化（即您的数据）了如指掌。
智能体要想成功，就需要高质量的数据。根据 The Data Management Association 的定义，高质量数据需具备准确、完整、一致、及时、唯一和有效的特性。IBM 还新增了第七个数据质量维度——同质性，这一质量衡量标准可确保各类数据实现协调统一，以便进行一致解读，并通过语义增强提升理解效果。
维护数据质量并非易事，尤其是在泽字节 (ZB) 时代。手动保证质量既耗时且容易出错，还需要大量数据专业人员支持，而在人才持续短缺的背景下，这类专业人才缺口极大，手动质量保证根本无法落地。
各组织试图通过搭建数据堆栈来填补缺口，但这类堆栈由数据仓库、数据湖和整合工具堆砌而成，结构脆弱不堪。补丁、仪表板和脚本进一步加剧了系统臃肿。这种临时方案往往会导致技术债务不断累积，且累积过程难以预测。当您的 IT 人员疲于应付维护工作，将工作效率消耗在数据资产的漏洞中时，创新就会被搁置。
那么我们接下来该如何推进？
答案始于一个数据层，它能连接、增强并治理您所有的数据源，为精通您组织业务背景与沟通逻辑的 AI 智能体提供源源不断的支持。在此基础上，智能体能够做出值得信赖的决策，加速工作流、降低风险并规模化提升生产力。
元数据正是这一数据层的核心语言。它提供的上下文能让您的数据轻松适配 AI 或更传统的工作负载（如分析和数据工程）。不过，手动分类无法实现规模化。但自动标记可以，因为它能以数据采集速度为数据赋予结构。它可以捕捉数据沿袭、敏感性和业务含义，并在需要时提供人工监督，从而降低风险并加速检索、合规等下游任务的推进。简而言之，它能在有人提出需求之前，就将原始数据资产转化为经过治理的上下文知识。
上下文的价值不可估量。最终，它能带来更精准的 AI 输出和更有把握的决策。然而，缺乏正确权限的数据是负债，而非资产。
访问规则不应仅存在于电子表格中。它们应与数据同步流转。当数据资产从文档存储转移到湖仓一体架构，再到模型微调任务时，权限也应随之迁移。当政策根据身份、角色和使用目的自动生效时，合适的人员就能在恰当的时机获取所需数据。这一过程可降低风险、防止数据意外泄露，并避免合规工作陷入被动应急状态。
强有力的治理至关重要，但这只是解决方案的一部分。其底层架构决定了管控能力是可规模化扩展，还是会陷入停滞。天生具备开放与混合特性的架构才是正确选择，因为大多数企业已跨越多个云环境和本地部署环境。存储与计算分离可避免高昂的迁移成本及其带来的业务中断。Apache Iceberg 等开放文件格式通过将应用程序与存储解耦，实现了这一目标，让工具能够就地读写数据（无论数据位于何处）。它们还能避免企业被锁定在单一供应商的数据库中。灵活性并非奢侈品，它是防范成本失控和系统僵化的保障，避免系统在业务优先级调整时无法适应。McKinsey 的一项研究显示，难怪有四分之三的组织计划在未来几年内增加开源 AI 技术（包括开放文件格式）的使用，理由是其实施和维护成本更低。
非结构化数据仍是一座尚未充分挖掘的巨大宝库。我认为，发票、电子邮件、日志、图片，甚至这篇博客，都蕴含着宝贵洞察，但这些洞察很少被纳入分析，原因在于它们分散在各个系统中、格式不兼容且缺乏规范标签。手动提取根本行不通。它需要耗费大量人力和时间，容易出错，且在企业级数据的重压下难以维系。自动化是实现企业级数据有序化的唯一途径：识别实体、捕捉关键价值，并构建语义层次，以反映您的企业实际业务运作方式及其希望在市场中呈现的形象。由此，一个机器可处理、人类与 AI 智能体均可信任的模式便应运而生。
当这些经过增强的数据流入融合文本转 SQL、向量检索和混合查询的检索层时，智能体就不再依赖猜测。它们会开始充满信心地进行推理和行动。相比之下，传统 RAG 系统往往难以理解上下文，因此不适合企业级推理场景。统一的解决方案可避免这些问题，为智能体提供果断行动所需的深度洞察和精准度。
将非结构化数据的混乱转化为结构化数据的清晰有序是第一步，但唯有数据智能才能让这份清晰具备实际价值。若缺乏数据智能，即便组织得再完善的数据也将毫无活力。数据智能为每项数据资产赋予了完整的背景信息，也就是它的来源、变化历程以及相关责任人。编目与数据沿袭不仅仅是日常管理工作，更是信任的基石。质量评分能确保智能体的推理不会建立在不可靠的基础上。发布术语定义清晰的数据产品，能将原始数据资源转化为团队可信赖的服务。当智能体引用某个数据时，只需一键即可查看其来源。当某项定义发生变化时，所有依赖系统都应在下次决策前知晓这一调整。
但仅有数据智能还不够。IBM《2024 AI 实践应用报告》发现，数据复杂性（包括跨分散系统的整合）仍是 AI 规模化的主要障碍之一。智能体及其他依赖数据的系统需要的是持续整合，而非一次性完成的整合。整合是数据在流转过程中实现形态优化的核心方式：在数据流动时对其进行标准化、增强、治理，使其随时可用于各类场景。数据管道应随每次运行动态调整，从数据漂移中学习经验，并针对性能、成本和质量进行优化。可观测性也同样重要。当整合过程具备可见性和响应性时，下游系统（包括智能体）就不会继承隐性错误或过时逻辑。
当整合与智能协同发挥作用时，最终效果会令人熟悉：一切自然顺畅、行之有效。这并非偶然，而是因为其底层架构经过了深思熟虑的设计。一个连接您的数据资产、赋予数据业务意义，并在每一步操作（无论是智能体相关还是其他各类操作）中贯穿治理机制的数据层，能提升决策准确性，推动更有把握的决策制定。这正是将前景良好的演示转化为可靠系统的关键。这能让您从试点顺利过渡到生产阶段，避免偏离核心目标。
