通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
现代企业运行在架构复杂的分布式环境中,所处理的数据类型十分多样。企业还面临持续增长的创新压力与实时决策压力。传统的数据整合方式并非为这类需求而设计。
四大趋势进一步说明,AI 数据整合在当下具备重要价值的原因:
随着数据环境日趋复杂,即便是细微改动也会干扰整合工作,进而形成研究人员所说的“反复检测、排查、修复管道故障的循环,消耗大量技术资源”。5
IBM 软件工程师 Jahangir Khan 表示,对于优先落地企业 AI 与实时决策业务的组织而言,向 AI 驱动的管道设计、编排模式转型,已然成为“必然且关键的选择”。6智能体式 AI 支撑的管道具备自适应与自我修复能力,可从本质上优化数据整合流程,提升弹性与运行速度。
AI 数据整合能够解决拖累现代数据团队运行效率的三大核心执行难题:
众多企业都受困于缓慢、繁琐的数据访问流程。数据请求者通常需要等待一至四周才能拿到数据,进而拖累工作效率与决策推进。
工作流分散、工具繁多会进一步加剧该问题,有 50% 的组织同时使用三款及以上数据整合工具。数据工程团队需要在相互隔离的环境中开展工作,这会造成执行标准不统一、重复作业以及运营复杂度上升。
不少组织缺少专业的数据工程人才,无法满足当下 AI 与各类数据业务的需求。据相关统计,有 77% 的企业表示自身缺少必备的数据技能与专业知识。
技能缺口会加剧企业对人工流程的依赖,同时延缓新型整合方式的普及应用。除此之外,业务用户即便提出基础的数据请求,也高度依赖技术团队,致使工程团队长期处于超负荷运转状态。
AI 数据整合借助 LLM、机器学习和自动化技术,简化端到端的数据整合全流程。最常见的方法包括:
AI 还可以自动完成核心数据整合任务,例如模式映射和数据转换。传统的数据映射和转换工作依赖专业工程知识与硬编码规则。AI 模型依托语义理解能力,自动完成跨数据源的模式匹配与对齐。
例如,AI 可将一个系统内的“emp_ID”与另一系统的“employee_number”进行匹配,即便字段名称和数据格式存在差异。依托这类信息,AI 可生成转换逻辑与标准化规则,并随业务逻辑变化同步调整,无需重写代码。
大多数业务用户不掌握结构化查询语言 (SQL),需要依托技术团队调取企业数据,用于制作报表、解答常规问题。AI 整合依托无代码自助服务式数据智能体缓解这类问题,这类智能体利用自然语言处理 (NLP) 与 LLM 解读自然语言请求,并生成 SQL 查询语句。
例如,金融分析师可提出查询要求:“按客户细分展示过去两个季度的盈利趋势。”智能体程序解析请求内容、生成查询语句并反馈结果。
该方式能够缩短数据访问耗时,让企业内的整合数据更便于全员使用。对于希望自主把控查询需求的技术用户,Python 软件开发工具包 (SDK) 可借助 LLM,根据用户需求生成并运行 Python 脚本。
在数据整合工作中运用高阶 AI 功能,可带来多项优势,具体如下:
业内也普遍认为,AI 正在大幅推动数据工程的普惠化发展。数据访问与理解门槛被降低后,即便非技术类业务用户,也可自主开展数据相关工作。
采用 AI 整合解决方案的实际用例十分丰富,举例如下:
借助 AI 摄取并转换实时数据流,可有效降低延迟,支撑高效、精准的运营与分析决策。
AI 数据整合可优化并简化流入湖库、数据仓库环境的数据流,保障数据可靠、传输高效。
快速整合客户关系管理 (CRM) 与绩效洞察分析的能力,可加快销售团队工作节奏,降低其对技术团队的依赖。
数据整合方案并非通用模板。评估 AI 驱动的数据整合解决方案时,需综合考量各项功能、模块与配套服务。以下三个核心问题,可作为选型参考依据:
通过简化的用户体验,将原始数据转化为 AI 就绪数据,支持整合任意类型的数据。
利用 IBM 数据集成解决方案,创建弹性、高性能和成本优化的数据管道,以满足您的生成式 AI 计划、实时分析、仓库现代化和运营需求。
通过制定适当的战略、数据、安全和治理措施,成功实现 AI 的规模化应用。
1,3,6,9,10 Leveraging Artificial Intelligence to Automate ETL Pipelines: Evolving Legacy Data Systems into Intelligent Workflows,Jahangir Khan2025 年 6 月。
2 Untapped value: What every executive needs to know about unstructured data,IDC,2023 年 8 月。
4 Can AI Autonomously Build, Operate and Use the Entire Data Stack?,IBM Research,2025 年 12 月 8 日。
5 The challenges of Extract, Transform and Loading (ETL) system implementation for near real-time environment,Sabtu, Adilah & Mohd Azmi, Nurulhuda & Sjarif, N.N.A. & Ismail, S.A. & Mohd Yusop, Othman & Sarkan, Haslina & Chuprat, Suriayati,2017 年 7 月。
7 What wasting data engineering talent really costs you,Kevin Kim,2022 年 3 月 31 日。
8 Beyond ETL: How AI Agents Are Building Self-Healing Data Pipelines,Soumen Chakraborty,2025 年 5 月。