TechXChange 2025 立即注册加入数据整合客户咨询委员会

非结构化数据集成

通过 watsonx.data integration 大规模摄取、转换和预处理非结构化数据

非结构化数据整合产品界面展示管道设计

IBM® watsonx.data integration 简介:数据工程的新方向

 

观看网络研讨会,了解 watsonx.data integration 如何助力您增强 AI,同时简化数据工程。

立即观看

借助针对非结构化数据的 ETL 工具,助力 AI 发挥更大价值

随着 AI 应用加速,非结构化数据(占企业数据 90% 以上)成为构建差异化、精准 AI 的关键。然而受限于手动且碎片化的处理流程,如今仅有不足 1%1 的非结构化数据被用于生成式 AI。

IBM® watsonx.data integration 自动化实现非结构化数据的摄取与转换,为下游 AI 用例提供预处理数据。通过此功能,团队可在数分钟内构建可重复使用的管道,从而从单一平台实现端到端整合。

 

 

 

优势
企业级

专为大规模处理设计,内置安全与合规保障。

一器多用,无限可能

该工具可与结构化数据集成协同工作,涵盖批处理、流处理、数据复制和可观测性,助您告别工具拼凑的困扰。

面向所有用户

设计适用于所有技能水平 – 从零代码/低代码到全面 SDK。

实验室交流:使用 IBM 解决方案为 AI 摄取、转换和预处理非结构化数据

观看此点播网络研讨会,了解 IBM 如何将数据集成框架扩展至非结构化数据领域。

观看回放

两分钟内构建非结构化数据集成管道

与结构化数据集成的传统提取、转换、加载 (ETL) 流程类似,此项新技术将流程应用于非结构化数据。

提取
提取

无论技能水平如何,用户均可利用直观 UI 和预构建连接器,从多种来源摄取常用的非结构化文件类型。对于技术能力更强的用户,平台可通过全面 SDK 实现完全扩展。

转换
转换

在转换环节,该功能提供预构建的质量算子,用于处理文本提取、去重等任务。该功能还能移除敏感内容,如个人身份信息 (PII) 以及仇恨、辱骂和亵渎 (HAP)。这些转换由可扩展引擎驱动,可处理数亿级页面数据,实现非结构化数据处理的指数级加速。非结构化数据集成还与 LangChain 等开源框架整合,进一步扩展转换功能。

加载
加载

在加载环节,该功能提供分块与嵌入算子,可简化嵌入生成并输出至 Milvus 等矢量数据库,使非结构化数据轻松应用于 AI 用例。

非结构化数据 ACL 界面展示
专为企业级规模打造

管道构建完成后将持续运行,当源文档变更时自动更新嵌入,从而解决矢量化数据过时的常见问题。为保障安全,内置访问控制列表 (ACL) 支持组织管理特定数据集的查看与操作权限。

提取
提取

无论技能水平如何,用户均可利用直观 UI 和预构建连接器,从多种来源摄取常用的非结构化文件类型。对于技术能力更强的用户,平台可通过全面 SDK 实现完全扩展。

转换
转换

在转换环节,该功能提供预构建的质量算子,用于处理文本提取、去重等任务。该功能还能移除敏感内容,如个人身份信息 (PII) 以及仇恨、辱骂和亵渎 (HAP)。这些转换由可扩展引擎驱动,可处理数亿级页面数据,实现非结构化数据处理的指数级加速。非结构化数据集成还与 LangChain 等开源框架整合,进一步扩展转换功能。

加载
加载

在加载环节,该功能提供分块与嵌入算子,可简化嵌入生成并输出至 Milvus 等矢量数据库,使非结构化数据轻松应用于 AI 用例。

非结构化数据 ACL 界面展示
专为企业级规模打造

管道构建完成后将持续运行,当源文档变更时自动更新嵌入,从而解决矢量化数据过时的常见问题。为保障安全,内置访问控制列表 (ACL) 支持组织管理特定数据集的查看与操作权限。

用例
从所有数据中获取统一洞察

watsonx.data integration 在现代湖仓一体架构中统一处理结构化和非结构化数据。通过连接数据库、文档、日志、图像和电子邮件,它可以实现更丰富的洞察分析、更准确的 AI 和完整的业务视图。

支持智能的智能体式工作流

watsonx.data integration 将非结构化内容转化为可供自主智能体与实时系统使用的可操作结构化数据,为自动化服务、欺诈侦测和动态供应链等用例提供支持。

为 AI 训练提供高质量输入

watsonx.data integration 通过清洗、丰富和结构化处理文档、音频和视频等非结构化内容,为 AI 训练做好准备。这确保了高质量的输入,以实现更好的 NLP、计算机视觉和预测性分析。

资源

了解如何利用 watsonx.data integration 构建面向未来的数据集成架构。
使用 IBM® watsonx.data integration 构建非结构化数据 ETL 管道。
通过非结构化数据整合与治理,实现 AI 规模化应用。

相关产品

不同颜色的社交媒体作品组成 DNA 形状的 3D 效果图
watsonx.data 集成

IBM® watsonx.data integration 能够统一您的结构化和非结构化数据,兼容所有集成模式与存储架构,助您轻松实现数据 AI 就绪。

深入了解 watsonx.data integration
不同颜色的社交媒体作品组成 DNA 形状的 3D 效果图
watsonx.data intelligence

watsonx.data intelligence 可发现、整理并治理数据资产,将原始信息转化为精准 AI 输出与高价值洞察分析,同时支持本地与云端环境。

深入了解 watsonx.data intelligence
不同颜色和形状的社交媒体作品的 3D 效果图
watsonx.data

IBM® watsonx.data打破传统的湖仓一体限制,同时为数据整合、扩充和治理开创了新标准,从而促进实施更准确的 AI。

深入了解 watsonx.data
采取后续步骤

是时候将数据转化为竞争优势了。立即体验 watsonx.data integration。

免费试用 查看产品导览
脚注

¹ IDC 白皮书:非结构化数据的未开发价值