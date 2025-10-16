我们很高兴地宣布，IBM 与 Unstructured 这家 IBM Ventures 投资组合公司建立了新的合作伙伴关系。我们共同应对企业级 AI 扩展中最重要的障碍之一：为生成式 AI 准备非结构化数据。
大约 80% 的企业数据是非结构化的，它们驻留在 PDF、电子邮件、协作平台和文档存储库中。然而，只有不到 1% 的数据是直接适合 AI 使用的格式。这一差距既代表了巨大的机会，也构成了企业在扩展 AI 计划时的关键挑战。
传统的非结构化数据准备方法正在限制企业的发展。手动数据处理流程需要 6 到 12 个月才能建立，而且脆弱易损，每遇到新的文档格式或源系统变更就可能出现故障。工程团队将宝贵的时间花在数据管道搭建上，而非 AI 创新。如果缺乏适当的结构和一致性，AI 模型将提供不可靠的结果，削弱信任并延长实现价值的时间。
IBM watsonx.data 作为业界唯一一款专为 AI 和分析而构建的混合开放式湖仓一体，可应对这一挑战。它可以简化结构化和非结构化数据的访问、准备和治理，帮助各组织为大规模生成式 AI 建立可信的数据基础。
通过此次合作，Unstructured 将 watsonx.data 的功能扩展到非结构化数据的访问与转换，将其转化为 AI 可用格式，为可靠、可扩展且值得信赖的生成式 AI 提供支持。
Unstructured 为企业数据源提供 30 多个预构建连接器，包括 SharePoint、Google Drive、Salesforce、Confluence、Box 和 Dropbox。支持 70 多种文件类型（从布局复杂的 PDF 到扫描图像、电子邮件和 Microsoft Office 文档），企业可以访问并转换其完整的数据资产。
与基础文本提取工具不同，Unstructured 的智能文档理解能够保留关键元素，如表格、层级结构和语义结构，确保 AI 模型获得具有上下文丰富的数据信息，而不仅仅是原始文本。
无代码可视化工作流构建器使业务和数据团队能够设计和管理数据管道，而无需依赖专业的工程资源。对于拥有开发团队的组织，全面的 API 提供了编程控制和定制选项。
自动增量同步流程仅处理新增和更改的文档，从而降低计算成本并保持 AI 应用的最新状态。多源编排可同时协调多个系统之间的数据流，从而消除手动协调开销。
Unstructured 符合 SOC 2 Type II、HIPAA 和 GDPR 标准，满足企业 IT 组织所需的严格安全和隐私要求。与 watsonx.data 配合使用时，该解决方案提供版本控制、数据血缘跟踪以及细粒度访问控制，确保在整个数据管道中遵循源系统的权限设置。
Unstructured 提供语义丰富、适当分块的数据，并针对现代 AI 架构进行了优化：
借助 watsonx.data 与 Unstructured，团队可以快速构建生产就绪的数据管道，将速度、灵活性和 AI 准备度集成于一体。
如果说 watsonx.data 是驱动生成式 AI 应用的数据引擎，那么 Unstructured 则提供了“燃料”。watsonx.data 和 Unstructured 共同提供 AI 就绪的非结构化数据，并实现高级检索增强生成模式，从而提高 AI 的准确性和可靠性。
企业可以通过用自动化、智能化处理取代手动文档准备，从而加快实现价值的速度。治理策略从文档源系统一直延伸到 AI 应用的各个环节，在每个阶段都提升了信任度和透明度。通过消除非结构化数据准备的瓶颈，并提供具备统一数据访问、准备和治理的数据基础，组织最终能够释放其非结构化内容的全部潜力，为可靠的企业级 AI 提供支持。
要了解 watsonx.data 和 Unstructured 的实际应用，请参加我们即将举行的联合网络研讨会或预约销售会议。我们将共同帮助您从花费时间准备混乱的非结构化数据，转向利用 AI 就绪数据大规模加速企业级 AI 智能体和应用的开发与部署。