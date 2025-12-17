以代码形式构建数据管道：介绍 IBM watsonx.data integration Python SDK
watsonx.data integration Python SDK 的正式发布，标志着 IBM 在打造 AI 就绪型数据基础愿景上的一个重要里程碑，使数据团队能够规模化推进管道开发，并以高质量数据为智能代理提供强大支撑。
watsonx.data integration Python SDK 引入了代码优先模式，在充分利用现有 Python 技能的基础上，为代理提供统一的代码生成与验证接口。随着数据团队为代理式 AI 做好准备，管道开发亟需一种更适合大语言模型生成的全新方式。
该 Python SDK 通过“以代码定义”的方式，支持团队构建、版本管理、自动化及治理批处理与实时流式数据管道，显著减少人工操作，并实现可扩展的数据整合。结合我们在代理式管道创作（预览版）方面的持续投入，此次发布进一步彰显了 IBM 致力于贴合客户实际需求、助力其构建 AI 就绪型数据基础的坚定承诺。
在当今复杂的数据环境中，每一家组织都承受着压力：业务团队亟需更快速的洞察，数据团队被脆弱且碎片化的系统所牵制，而合规负责人则担忧敏感数据在治理漏洞中悄然流失。随着代理式 AI 的兴起，这些压力进一步加剧——成功不仅取决于模型本身的强大，更取决于其背后数据基础的稳固程度。
这一数据基础的核心在于数据整合：通过管道实现数据的连接、转换与交付，使其可信、可用。一旦数据整合受阻，AI 便无从成功。根据麻省理工学院发布的《The GenAI Divide》，95% 的生成式 AI 试点失败，并非源于模型能力不足，而是因为数据基础尚未就绪。与此同时，数据团队被要求在更多数据类型和环境中构建并管理更多数据管道，尽管有 77% 的组织表示缺乏所需技能。
需求与能力之间日益扩大的差距清楚表明：管道开发必须更加灵活，真正满足用户所处的现实环境。传统的创作方式已远远不够。业务用户希望通过自然语言表达意图。技术从业者则需要代码。而许多团队仍依赖可视化画布来实现快速设计。
IBM 正在对这种多模态方法进行持续而深入的投入，使 watsonx.data integration 能够在不同用户的首选工作流中，提供一致而有力的支持。
全新的 IBM watsonx.data integration Python SDK，正是这一愿景下的重要里程碑。它为开发人员和数据工程师提供了一种强大的代码优先方式，以编程形式构建、自动化并维护数据管道，减少人工操作，加快价值实现速度。
长期以来，数据工程师和 ETL 开发人员都高度重视构建数据管道方式的选择权——无论是可视化的无代码/低代码界面，还是直接编写代码。无论采用哪种编写方式，数据管道都可以一次定义，在 Git 中进行版本控制，并通过 CI/CD 工作流实现一致部署。不同的方法，满足的是数据团队中不同角色与技能组合的需求。
如今，借助这一 Python SDK，团队可以使用数据工程领域最广泛采用的语言之一，来编写和管理数据整合管道。由于数据工程师已熟练掌握 Python 的阅读、编写与审查，这些能力可以无缝迁移至 IBM watsonx.data integration。“管道即代码” 将为代码复用开辟全新的路径。通过提供这一 Python SDK，数据团队得以在多种创作方式之间自由选择，真正契合各自的技能背景与工作偏好。
通过 SDK，团队可以：
这些能力共同为下一代数据整合奠定基础：在这一时代，管道如同软件般运行，自动化成为默认模式，未来的 AI 智能体能够对数据流进行推理、优化，甚至实现规模化的自主维护。
尽管该 SDK 为管道开发引入了程序化方法，但其真正的价值，体现在团队如何将其应用于日常实践之中。早期采用者正逐步形成一套通用模式，帮助团队更快扩展、减少重复工作，并以更高的一致性运行。
常见的起点，是从一个基于 UI 构建的简单管道开始。例如：采集 CSV 文件、执行转换，并将结果写入云端存储。随着需求增长，其他团队往往希望在不同输入条件下复用同一套逻辑。
借助 Python SDK，原始管道可通过全新的 Python 代码生成功能导出为 Python，并进一步转化为可复用、可参数化的模板。新增的参数集和值集功能，使配置得以从 UI 中剥离，纳入版本控制体系。无需在表单中手动输入参数，团队即可一次性以代码方式为开发、测试与生产环境定义并注入配置。通过调整少量代码即可生成变体，而非从零重新设计管道，从而实现更快交付、更少错误，以及可标准化的可扩展模式。
另一类常见挑战出现在数据库或数据存储迁移期间，需要同时更新大量受影响的数据源或运行环境。此时，团队无需在 UI 中逐一修改管道，而是可借助 SDK 以程序化方式复制流程、更新连接器与连接配置、调整参数，并在数秒内完成发布。在数据源频繁变化、管道必须快速演进的环境中，这一点尤为关键。
SDK 可安全连接企业的混合环境——无论部署于公共云 / SaaS，还是自管软件环境。只需一次代码变更，即可在所有环境中保持一致，而非进行数十次人工修改。
这些实践模式指向一个更深层次的转变：从手动配置，迈向可重复、以软件为驱动的开发方式。通过将管道视为代码，组织能够更可靠地扩展数据整合能力，并为代理式 AI 构建坚实而可持续的数据基础。
watsonx.data integration Python SDK 是 IBM 打造 AI 就绪型数据基础愿景中的关键里程碑。它将程序化自动化引入 watsonx.data integration，使团队能够以接近软件工程级别的严谨性与可扩展性来构建和维护管道，同时仍尊重不同用户偏好的工作方式，从而有效缓解数据工程技能缺口。
作为更广泛的 watsonx.data 产品组合的一部分，watsonx.data integration 可与 watsonx.data intelligence 无缝协同，提供可信的端到端数据基础。这些能力共同支持组织在混合环境中高效移动、理解、治理并激活数据，为 AI 与代理式工作流的规模化运行提供动力。
使用 IBM watsonx.data integration 更快构建管道