顾名思义,智能体式 AI 数据工程是数据工程与智能体式 AI 的融合。前者是开发和维护数据基础设施及数据管道的实践,这些基础设施和管道对数据管理至关重要。
后者是指能够在有限人工监督下完成特定目标的人工智能系统。在多智能体系统框架中,多个 AI 智能体(即模拟人类决策的机器学习模型)执行的子任务通过 AI 编排进行协调。
在数据工程中,AI 智能体可以执行多步问题解决流程,这些流程对于确保为企业用例提供高质量数据至关重要。这些流程包括设计数据管道和执行关键的数据处理任务,例如执行数据转换和检测数据问题。
智能体式 AI 数据工程也被称为智能体式数据工程,它能够显著减轻数据工程团队的工作量,同时优化数据管道的性能。此外,智能体式 AI 数据工程还能让业务用户即使缺乏技术技能,也能访问企业数据并从中获取洞察。
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
要了解为何数据工程领域正在采用智能体式 AI 系统,不妨仔细审视一下现代数据工程的本质。
对于希望在日益庞大且复杂的数据生态系统中释放价值的企业而言,数据工程至关重要。数据工程师帮助构建工作流并确保其功能,这些工作流将原始数据转化为能产生实际商业价值的输出。当数据工程成功实施时,就能交付干净、准确且及时的数据集,这些数据集可被分析以得出可操作的洞察,或用于驱动 AI 项目。
随着组织越来越依赖数据驱动决策(包括基于实时数据的时效性决策),对可靠数据管道的需求从未像现在这样迫切。但维护这些管道的挑战也从未如此巨大——数据工程师现在需要监管日益复杂的数据栈和编排流程。
这不可避免地意味着数据团队将大量时间花在“救火”上。换句话说,他们专注于维护和故障排查,以解决数据管道问题,甚至更糟的是应对数据管道故障。
“当数据工程团队构建管道时,工程师们往往依赖计划任务、存储过程、复杂脚本以及转换逻辑的组合。这些环节协同工作,仅仅是为了维持数据流动。有时,只要源系统发生一次模式变更或列名修改,就可能引发数小时的调试和重新测试,”IBM 数据和 AI 高级产品经理 Justin Yan 在 IBM 技术视频中解释道。
幸运的是,现在可以部署 AI 智能体来处理大部分此类工作,并从一开始就防止问题发生。Yan 表示,智能体可以“解决数据集成中的问题,帮助规划、监控和适应数据挑战,从而让数据以您工作负载所需的质量和及时性到达需要的地方”。
多种技术的结合支持了智能体式 AI 在数据工程中的部署。
AI 智能体是一个系统,它通过使用可用工具(包括数据工作流)设计工作流来自主执行任务。智能体利用大语言模型的自然语言处理技术,逐步理解并响应用户输入,并决定何时调用外部工具。
虽然将自主智能体用于数据工程的方式会因数据系统和工程团队而异,但以下是人工智能驱动系统如何跨数据生命周期处理不同数据工程流程和任务的概述。
智能体式 AI 数据工程使组织能够自动化创建数据管道。用户可以使用自然语言声明他们希望管道实现什么结果,而无需详细说明实现该结果所需的步骤——由 AI 智能体自行决定管道将如何工作。这被称为声明式管道编写,它替代了需要手动编码每个管道步骤的方式。
用户提交自然语言请求后,LLM 解析该请求并理解用户的意图。 然后,AI 智能体设计(并通常实施) 一个端到端流程,包括:
具有更多技术知识的用户可以选择指定所需数据管道的结构。他们可以通过使用 Python 软件开发工具包 (SDK) 来实现,该工具包使大语言模型能够根据用户针对各种数据相关任务(例如选择数据源或进行数据清洗)的请求来编写和执行 Python 脚本。
智能体式 AI 数据工程为组织、其数据团队及其业务用户提供了诸多优势。这些优势包括:
AI 智能体可以自动进行数据剖析、数据验证、规则创建、监控和修复。“智能体能够尽早检测到列变更或类型不匹配,并在作业失败前提出修复建议。持续检查异常、自动回填以及绕过故障数据源重新路由,将有助于保持数据对 AI 系统下游使用的可信度,”Yan 解释道。
AI 智能体可以评估不同的执行策略,并识别潜在的瓶颈和复杂问题,例如不同应用程序栈中的隐藏依赖。通过将这些信息纳入管道设计,它们可以制定出既能实现数据目标,又能最大限度减少资源消耗和运行时间的方案。
此外,随着基础设施或模式的变更,智能体式系统可以调整并复用现有管道,帮助企业避免积累过时的管道和技术债务。
AI 智能体的管道设计和持续监控可以确保敏感数据符合数据隐私法律的要求,例如美国《健康保险流通和责任法案》 (HIPAA) 和欧盟《通用数据保护条例》 (GDPR)。此外,AI 智能体的血缘追踪可以支持透明性和可审计性。
具备很少或没有技术专长的业务用户不再需要完全依赖数据专业人员来满足他们的数据需求。他们可以向 AI 智能体请求创建或交付数据集,而无需等待数据从业人员的帮助,从而更快地获得关键洞察。
AI 智能体可以在极短的时间内设计、构建并执行功能完备的数据管道,而数据团队手动编写这些管道则需耗时更长。AI 智能体还能使这些管道具备适应性和“自我修复”能力——也就是说,它们可以在问题扰乱下游流程之前进行监控和处理。总而言之,这意味着企业可以随着数据资产和数据需求的增长与演变,放心地继续增加管道。
通过将管道设计、维护和故障排查任务交给智能体式 AI 系统,数据工程师可以提高生产力,并获得更多带宽去从事高价值任务和有意义的工作,例如构建和试点新功能。
与其他 AI 用例一样,企业在尝试部署智能体式 AI 进行数据工程时,应考虑几个潜在的挑战。
软件解决方案和平台可以帮助企业应对将智能体式 AI(包括用于数据工程的 AI 驱动系统)融入日常工作流所面临的挑战。
强大的人工智能治理工具能够嵌入防护措施,以限制智能体的非预期行为,并部署专门的指标来评估智能体性能。AI 编排解决方案可以帮助弥合先进 AI 技术与旧有企业系统之间的差距,而无需长时间的重新工程改造。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。