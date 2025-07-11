2025 年 7 月 11 日
2025 年 6 月 11 日，IBM 推出了新的数据整合方法：watsonx.data integration。该解决方案提供了一个统一的控制平面，用于创建批处理、实时流处理和数据复制管道，并配备内置的可观测性功能。
在同一解决方案中，团队可以构建可复用的非结构化数据管道，同时处理结构化数据，从而释放之前无法访问的数据宝藏，为新的用例提供支持，并满足现代数据环境不断变化的需求。借助 watsonx.data integration 的非结构化数据整合 (UDI) 功能，用户可以直观地构建管道，在几分钟内摄取、转换和处理大量非结构化数据，包括文档、PDF、PPT 等。
该产品将来自 IBM 研究院的开源和专有创新成果结合在一起。一些一流的产品功能包括：
watsonx.data integration 专为处理传统上未充分利用的企业数据而设计，是在解锁非结构化数据以支持 AI 和分析方面迈出的重要一步。
大多数公共数据在当今的基础模型中已有良好体现，因此，真正的竞争优势来自于利用企业数据。然而，90% 的企业数据是非结构化的，从文档和 PDF 到电子邮件、图像和日志，大量信息尚未开发，其中大部分信息仍然超出了传统分析和 AI 工作流的覆盖范围。并且由于访问和管理的复杂性，目前仅有 1% 用于生成式 AI。
了解更多关于传统非结构化数据方法所面临的挑战。IBM watsonx.data integration 及其更广泛的工具生态系统旨在直接解决这些挑战。以下是 UDI 功能的关键功能，可帮助组织应对当今快速发展的数据环境。
该解决方案包含预构建连接器，使用户能够大规模摄取各种常用数据源和格式（以及其相关的元数据和访问控制），并随数据演变而更新。尽管市场上存在一些非结构化数据连接器，但很少有能够随着文档或权限的变化而动态适应的。
watsonx.data integration 由 IBM 研究院合作开发，将专有创新与领先的开源技术相结合，将非结构化数据处理引入现代数据管道。其可视化画布包含针对文本和其他模态的专用算子，涵盖个人可识别信息 (PII) 掩码、仇恨、滥用与粗俗语言 (HAP) 检测、质量过滤、语言检测以及置信度评分。开发人员可以设计单个管道来大规模处理各种文件类型，而无需编写或维护自定义代码。就像结构化数据的拖放式 ELT 一样，watsonx.data integration 为非结构化数据带来了同样直观、低代码/无代码的体验，并且还为那些喜欢以编程方式工作的人提供了功能齐全的 Python SDK。
此外，用于嵌入、分块和矢量化的预构建算子允许用户将原始文档转换为针对下游 AI 进行了优化的结构化表示。这些算子会自动将非结构化内容转换为具有语义意义的矢量，从而支持 RAG、文档分类和智能搜索等用例，而所有这些都无需深厚的 机器学习 (ML) 专业知识。
这种对非结构化数据的整合支持旨在高效处理 PB 级的复杂非结构化内容。数千个 10MB 或以上的文档被压缩为统一的高性能格式，从而实现快速处理和重新处理。此架构专为满足企业级非结构化数据的需求而构建。
管道支持自我更新数据结构。当源文档（例如“文档 A”）更新为新版本时，只会捕获增量并无缝地向下游传播，包括矢量数据库。这可确保数千个规模化管道保持最新状态，而无需进行全面的重新处理。
对 ACL 的原生支持，可确保在整个数据管道中保留文档级权限。这意味着用户只能访问他们有权查看的数据，这对于维护安全性、合规性和信任是关键的，因为非结构化数据会跨团队和应用程序流动。
最终，没有一个单一的组织可以在真空中修复上述问题。watsonx.data integration 对 UDI 的支持，建立在以现代开源工具为基础的灵活基础设施之上。以下是构成该基础的核心技术组件。
watsonx.data 集成对 UDI 的支持是基于 IBM 在构建 Granite 系列基础模型时的经验而开发的。在处理和准备用于训练 Granite 的 12 万亿个令牌时，暴露了现有非结构化数据工具的关键不足。为此，IBM 研究院创建了数据准备工具包 (DPK) 和数据与模型工厂 (DMF)，这些模块化框架提供跨文本、代码、语言和图像等模态的强大清理算子。这些经过实战检验的组件现已打包到 watsonx.data integration 中，专为高吞吐量、生产级用例而设计。如今，DPK 已通过 Linux 基金会开源，延续了 IBM 普及先进非结构化数据工具访问的使命。
watsonx.data integration 对 UDI 的支持还结合了 Watson 文档理解 (Watson Document Understanding) 和 Docling，这是 IBM 的一个开源项目，在 GitHub 上拥有超过 3 万颗星，用于提供最先进的文档解析和实体提取功能。这些科技擅长执行复杂的提取任务（包括表格提取），具有行业领先的速度和准确性。
无论您更喜欢 Milvus 等开源选项和/或托管矢量数据库，watsonx.data integration 的 UDI 都提供支持选项。矢量化管道原生嵌入在平台中，可快速进行部署到您首选的 RAG 和语义搜索工作量的存储空间中。
IBM watsonx.data integration 正在积极试行与 Langchain 和其他流行的开源整合框架的整合，为平台带来真正的社区驱动创新。这些整合使得通过 LangChain 构建或利用的功能可以在原生 watsonx.data integration 管道中实现全栈编排，同时保持生产环境所需的企业级治理、安全性和可扩展性。
借助 IBM watsonx.data integration，客户可以通过开源创新与企业科技相结合，解锁非结构化数据的全部潜力。从个性化内容生成到发票汇总和决策，UDI 将原始内容转换为 AI 就绪洞察分析，现已作为 IBM watsonx.data integration 的一部分提供。
该产品的独特之处在于它能够在一个平台上统一结构化和非结构化数据，从而简化管道构建和工具扩张，从而加速成果的产生。无论用例如何，watsonx.data integration 是解锁您所有数据的业务价值的基础。