什么是智能体式 AI 数据工程？

By Alice Gomstyn , Alexandra Jonker

智能体式 AI 数据工程的定义

智能体式 AI 数据工程是指为了改进和加速数据汇聚与分析系统的创建与维护而部署人工智能 (AI) 智能体。

顾名思义，智能体式 AI 数据工程是数据工程与智能体式 AI 的融合。前者是开发和维护数据基础设施及数据管道的实践，这些基础设施和管道对数据管理至关重要。

后者是指能够在有限人工监督下完成特定目标的人工智能系统。在多智能体系统框架中，多个 AI 智能体（即模拟人类决策的机器学习模型）执行的子任务通过 AI 编排进行协调。

在数据工程中，AI 智能体可以执行多步问题解决流程，这些流程对于确保为企业用例提供高质量数据至关重要。这些流程包括设计数据管道和执行关键的数据处理任务，例如执行数据转换和检测数据问题。

智能体式 AI 数据工程也被称为智能体式数据工程，它能够显著减轻数据工程团队的工作量，同时优化数据管道的性能。此外，智能体式 AI 数据工程还能让业务用户即使缺乏技术技能，也能访问企业数据并从中获取洞察。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

为什么智能体式 AI 对数据工程很重要？

要了解为何数据工程领域正在采用智能体式 AI 系统，不妨仔细审视一下现代数据工程的本质。

对于希望在日益庞大且复杂的数据生态系统中释放价值的企业而言，数据工程至关重要。数据工程师帮助构建工作流并确保其功能，这些工作流将原始数据转化为能产生实际商业价值的输出。当数据工程成功实施时，就能交付干净、准确且及时的数据集，这些数据集可被分析以得出可操作的洞察，或用于驱动 AI 项目。

随着组织越来越依赖数据驱动决策（包括基于实时数据的时效性决策），对可靠数据管道的需求从未像现在这样迫切。但维护这些管道的挑战也从未如此巨大——数据工程师现在需要监管日益复杂的数据栈和编排流程。

这不可避免地意味着数据团队将大量时间花在“救火”上。换句话说，他们专注于维护和故障排查，以解决数据管道问题，甚至更糟的是应对数据管道故障。

“当数据工程团队构建管道时，工程师们往往依赖计划任务、存储过程、复杂脚本以及转换逻辑的组合。这些环节协同工作，仅仅是为了维持数据流动。有时，只要源系统发生一次模式变更或列名修改，就可能引发数小时的调试和重新测试，”IBM 数据和 AI 高级产品经理 Justin Yan 在 IBM 技术视频中解释道。

幸运的是，现在可以部署 AI 智能体来处理大部分此类工作，并从一开始就防止问题发生。Yan 表示，智能体可以“解决数据集成中的问题，帮助规划、监控和适应数据挑战，从而让数据以您工作负载所需的质量和及时性到达需要的地方”。

智能体式 AI 数据工程中使用的关键技术

多种技术的结合支持了智能体式 AI 在数据工程中的部署。

AI 智能体

AI 智能体是一个系统，它通过使用可用工具（包括数据工作流）设计工作流来自主执行任务。智能体利用大语言模型的自然语言处理技术，逐步理解并响应用户输入，并决定何时调用外部工具。

自然语言处理

自然语言处理 (NLP) 是计算机科学和 AI 的一个子领域，它使用机器学习使计算机能够理解人类语言并与之交流。NLP 在企业解决方案中发挥着越来越大的作用，帮助简化和自动化业务运营。

机器学习

机器学习是 AI 的一个子集，专注于能够“学习”训练数据模式的算法。这些算法随后利用这种模式识别能力对新数据进行准确的推断。机器学习为大多数现代 AI 系统（包括大语言模型和其他生成式 AI 工具）提供了基础。

大语言模型

大型语言模型 (LLM) 是一种深度学习模型，能够理解并生成自然语言及其他类型的内容，以执行多种任务。它们的能力源于自然语言处理技术以及在大量数据上的训练，这使它们能够大规模处理非结构化的人类语言。

智能体式 AI 数据工程如何工作？

虽然将自主智能体用于数据工程的方式会因数据系统和工程团队而异，但以下是人工智能驱动系统如何跨数据生命周期处理不同数据工程流程和任务的概述。

数据管道创建

智能体式 AI 数据工程使组织能够自动化创建数据管道。用户可以使用自然语言声明他们希望管道实现什么结果，而无需详细说明实现该结果所需的步骤——由 AI 智能体自行决定管道将如何工作。这被称为声明式管道编写，它替代了需要手动编码每个管道步骤的方式。

用户提交自然语言请求后，LLM 解析该请求并理解用户的意图。然后，AI 智能体设计（并通常实施）一个端到端流程，包括：

从数据源连接和摄取
应用数据转换
将新数据移植到目标系统

具有更多技术知识的用户可以选择指定所需数据管道的结构。他们可以通过使用 Python 软件开发工具包 (SDK) 来实现，该工具包使大语言模型能够根据用户针对各种数据相关任务（例如选择数据源或进行数据清洗）的请求来编写和执行 Python 脚本。

执行作业

管道设计完成后，智能体式 AI 系统可以执行工作负载。AI 智能体进行工具调用，以与连接数据源、理解元数据和执行转换所需的外部工具、应用程序编程接口 (API) 或系统进行交互。

智能体还会为混合环境中的数据工作流选择最佳执行路径。这包括为作业的每个部分动态选择最佳的集成方法（实时流、批量 ETL/ELT 或复制）和运行时环境（本地、云环境，或通过下推引擎和远程引擎）。

强化学习可以通过奖励配置正确且成功运行的管道，帮助智能体逐步改进管道方案。

持续监控

智能体式系统可以通过持续监控管道来实现可观测性。智能体能够检测模式漂移、数据异常和数据质量问题。它们还可以支持对管道问题进行根本原因分析、推荐修复步骤并执行这些步骤。

管道的自主修复在那些不太方便的时间尤其有用。“如果夜间作业失败了怎么办？智能体可以自动重试运行、扩容计算引擎并调整流逻辑，而不是给某人打电话，”IBM 产品经理 John Wen 在 IBM 技术视频中解释道。

AI Academy

数据管理是生成式 AI 的秘诀吗？

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

智能体式 AI 数据工程有哪些优势？

智能体式 AI 数据工程为组织、其数据团队及其业务用户提供了诸多优势。这些优势包括：

管理数据环境中的复杂性

当今数据工程师面临的一个根本挑战是在复杂且孤岛化的环境中处理数据：不同的云、数据仓库、数据湖、本地服务器等等。有些数据以电子表格和 SQL 数据库的形式组织，但更多是非结构化数据，存在于文档、电子邮件、转录文本和图像中。在企业系统中，AI 智能体可以连接到多种数据源并整合各种数据格式，从而创建统一的数据平台，实现更丰富的分析和更准确的预测。

提高数据质量

AI 智能体可以自动进行数据剖析、数据验证、规则创建、监控和修复。“智能体能够尽早检测到列变更或类型不匹配，并在作业失败前提出修复建议。持续检查异常、自动回填以及绕过故障数据源重新路由，将有助于保持数据对 AI 系统下游使用的可信度，”Yan 解释道。

提高效率

AI 智能体可以评估不同的执行策略，并识别潜在的瓶颈和复杂问题，例如不同应用程序栈中的隐藏依赖。通过将这些信息纳入管道设计，它们可以制定出既能实现数据目标，又能最大限度减少资源消耗和运行时间的方案。

此外，随着基础设施或模式的变更，智能体式系统可以调整并复用现有管道，帮助企业避免积累过时的管道和技术债务。

支持法规合规

AI 智能体的管道设计和持续监控可以确保敏感数据符合数据隐私法律的要求，例如美国《健康保险流通和责任法案》 (HIPAA) 和欧盟《通用数据保护条例》 (GDPR)。此外，AI 智能体的血缘追踪可以支持透明性和可审计性。

为业务用户提供自助服务

具备很少或没有技术专长的业务用户不再需要完全依赖数据专业人员来满足他们的数据需求。他们可以向 AI 智能体请求创建或交付数据集，而无需等待数据从业人员的帮助，从而更快地获得关键洞察。

实现可扩展的增长

AI 智能体可以在极短的时间内设计、构建并执行功能完备的数据管道，而数据团队手动编写这些管道则需耗时更长。AI 智能体还能使这些管道具备适应性和“自我修复”能力——也就是说，它们可以在问题扰乱下游流程之前进行监控和处理。总而言之，这意味着企业可以随着数据资产和数据需求的增长与演变，放心地继续增加管道。