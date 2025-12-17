Inteligencia artificial Automatización de TI

Cree pipelines de datos como código: presentación del SDK de Python para watsonx.data integration de IBM

La disponibilidad general del SDK de Python de watsonx.data integration representa un hito clave en la visión de IBM de una base de datos preparada para la IA, lo que permite a los equipos de datos escalar el desarrollo de pipelines y potenciar a los agentes con datos de alta calidad. 

Publicado el 17 de diciembre de 2025
Dos compañeros de trabajo frente a un escritorio con datos en la pantalla mientras hablan

La integración de watsonx.data Python SDK introduce un modelo de código primero que se basa en las habilidades existentes de Python y ofrece a los agentes una interfaz consistente para la generación y validación del código. A medida que los equipos de datos se preparan para la IA agéntica, el desarrollo de pipelines debe tener otra opción que sea amigable para la generación de LLM.

El SDK de Python permite ese cambio al permitir que los equipos creen, versionen, automaticen y gobiernen pipelines de streaming por lotes y en tiempo real como código, lo que reduce el esfuerzo manual y permite una integración de datos escalable. Junto con nuestra inversión continua en la creación de pipelines de agentes (en vista previa), esta versión refuerza el compromiso de IBM de reunirse con los clientes dondequiera que estén mientras construyen bases de datos listas para la IA.

Satisfacer las demandas de la IA agéntica requiere un desarrollo flexible de pipelines

Cada organización siente la tensión del escenario de datos actual: los equipos de negocios necesitan más insights, los equipos de datos se ven estirados por los sistemas frágiles y fragmentados, y los líderes de cumplimiento de normas se preocupan de que los datos confidenciales se escapen entre las grietas. Estas presiones se intensifican con el auge de IA agéntica, donde el éxito depende no solo de modelos potentes, sino también de la solidez de la base de datos que los sustenta.

En el núcleo de esa base está la integración de datos: los pipelines que conectan, transforman y entregan datos para que se pueda confiar en ellos y utilizarlos. Cuando la integración falla, la IA falla. Según The GenAI Divide del MIT, el 95% de los proyectos piloto de IA generativa fracasan no porque los modelos sean insuficientes, sino porque la base de datos no está preparada. Al mismo tiempo, se pide a los equipos de datos que creen y gestionen más pipelines en más tipos de datos y entornos, incluso cuando el 77% de las organizaciones informan una escasez de las habilidades necesarias.

Esta creciente brecha entre la demanda y la capacidad deja claro que el desarrollo de pipelines debe ser flexible, atendiendo a los usuarios dondequiera que estén. La autoría tradicional ya no es suficiente. Los usuarios empresariales quieren expresar su intención a través del lenguaje natural. Los profesionales técnicos quieren código. Y muchos equipos confían en un lienzo visual para un diseño rápido.

IBM está invirtiendo profundamente en este enfoque multimodal para que watsonx.data integration pueda apoyar a cada usuario en su flujo de trabajo preferido.

Un enfoque centrado en el código para crear pipelines de datos

El nuevo SDK de Python para watsonx.data integration de IBM es un gran paso adelante en esa visión, ya que ofrece a los desarrolladores e ingenieros de datos una potente forma de crear, automatizar y mantener pipelines mediante programación, reduciendo el esfuerzo manual y acelerando el tiempo de creación de valor.

Los ingenieros de datos y los desarrolladores de ETL han valorado durante mucho tiempo la elección de cómo crear pipelines de datos, incluido el uso de interfaces visuales sin código/código bajo o la programación directa. Independientemente del estilo de creación, los pipelines se pueden definir una vez, versionar en Git y desplegar de forma sistemática a través de flujos de trabajo de CI/CD. Cada enfoque satisface diferentes necesidades y conjuntos de habilidades dentro de los equipos de datos.

Ahora, con el SDK de Python, los equipos pueden crear y gestionar pipelines de integración de datos utilizando uno de los lenguajes más adoptados en ingeniería de datos. Dado que los ingenieros de datos se sienten cómodos leyendo, escribiendo y revisando código Python, aplican esas mismas habilidades a watsonx.data integration de IBM. Los pipelines como código desbloquearán nuevas rutas para la reutilización del código. Al poner a disposición este SDK de Python, los equipos de datos pueden elegir entre múltiples opciones de creación que se alinean con sus habilidades y preferencias.

Con el SDK, los equipos pueden:

1. Pipelines como código:

  • Definir y reutilizar la lógica de canalización en Python en todos los entornos
  • Cambiar de versión, revisión y auditoría a través de Git y pull requests
  • Crear conexiones y diseñar, gestionar y ejecutar pipelines completamente en código
  • Automatizar las pruebas, promociones y despliegues con CI/CD
  • Hacer cumplir la gobernanza y los controles de acceso de forma programática

2. Acceda a una experiencia de integración de datos unificada con un solo SDK.

  • Utilice un único SDK tanto para procesos por lotes (ETL/ELT/TETL) como para procesos de streaming en tiempo real.
  • Elimine scripts personalizados y paquetes específicos de herramientas con un modelo de programación consistente
  • Diseñado para ampliarse a otros estilos de integración, incluidos datos no estructurados, replicación y mucho más.
  • Optimice la administración de la plataforma con control programático sobre los usuarios, los proyectos y la configuración de seguridad.

3. Un puente bidireccional entre el diseño visual y el código:

  • Realice prototipos de pipelines en el lienzo visual o créelos directamente en Python
  • Muévase perfectamente entre la interfaz de usuario (IU) y el código con exportación e importación instantáneas a través de nuestro generador de código Python SDK
  • Acelere la incorporación al tiempo que permite la automatización y CI/CD a escala
  • Mantenga los flujos de trabajo visuales y programáticos estrechamente conectados

Juntas, estas capacidades sientan las bases para la próxima era de integración de datos, donde los pipelines se comportan como software, la automatización es el valor predeterminado y los futuros agentes de IA pueden razonar, optimizar e incluso mantener los flujos de datos a escala.

Patrones del mundo real: cómo los equipos utilizan el SDK de Python para escalar el trabajo de integración

Si bien el SDK introduce un enfoque programático para el desarrollo de pipelines, su impacto es más visible en la forma en que los equipos lo aplican día a día. Los primeros adoptantes están convergiendo en un conjunto de patrones comunes que los ayudan a escalar más rápido, reducir la duplicación y operar con mayor consistencia.

Caso de uso 1: Convertir una sola canalización en una plantilla reutilizable

Un punto de partida común es una sencilla canalización construida con una interfaz de usuario (IU). Por ejemplo, realizar la ingestión de un CSV, aplicar una transformación y escribir los resultados en el almacenamiento en la nube. A medida que crece la demanda, otros equipos quieren la misma lógica con diferentes entradas.

Con el SDK de Python, ese pipeline original se puede exportar a Python utilizando nuestra nueva característica de generación de código Python y convertirlo en una plantilla reutilizable y parametrizada. Las nuevas características del SDK de conjuntos de parámetros y conjuntos de valores le permiten mover estas configuraciones fuera de la interfaz de usuario (IU) y al control de versiones. En lugar de escribir manualmente los valores en los formularios, puede definir e inyectar configuraciones programáticas para entornos Dev, Test y Prod de una sola vez. Las variaciones se crean ajustando unas pocas líneas de código en lugar de rediseñar el pipeline desde cero, lo que da como resultado una entrega más rápida, menos errores y un patrón escalable que los equipos pueden estandarizar.

Caso de uso 2: Modificación de pipelines a escala para la migración de infraestructura

Otro desafío común surge cuando los pipelines deben actualizarse con muchas fuentes de datos o entornos afectados, por ejemplo, durante una migración de base de datos o almacén de datos. En lugar de actualizar los pipelines en la interfaz de usuario (IU), los equipos pueden usar el SDK para duplicar flujos mediante programación, actualizar conectores y configuraciones de conexión, ajustar parámetros y publicar actualizaciones en segundos. Esto es especialmente valioso en entornos donde los pipelines deben evolucionar rápidamente a medida que cambian las fuentes de datos.

El SDK puede conectarse de forma segura a su entorno híbrido, ya sea en la nube pública/SaaS o en entornos de software autogestionados. En lugar de realizar docenas de ediciones manuales, se puede aplicar un solo cambio en el código de manera consistente en todas partes.

Estos patrones apuntan a un cambio más amplio: de la configuración manual al desarrollo repetible e impulsado por software. Al tratar las canalizaciones como código, las organizaciones pueden escalar la integración de datos de forma más fiable y construir la base estable de datos necesaria para la IA agéntica.

Una visión de conjunto

El SDK de Python para watsonx.data integration es un hito clave en la visión de IBM de una base de datos preparada para la IA. Al llevar la automatización a watsonx.data integration, los equipos pueden crear y mantener pipelines con el mismo rigor y escalabilidad que el desarrollo de software, mientras aún se reúnen con los usuarios en su modalidad preferida para ayudar a cerrar la brecha de habilidades de ingeniería de datos.

Como parte de la cartera más amplia de watsonx.data, watsonx.data integration funciona perfectamente con watsonx.data intelligence para ofrecer una base de datos confiable e integral. Juntas, estas ofertas permiten a las organizaciones mover, comprender, gobernar y activar datos en entornos híbridos, potenciando la IA y los flujos de trabajo a escala.

Cree pipelines más rápido con IBM watsonx.data integration

Comience a usar estos scripts de muestra

Explore la documentación

Caroline Garay

Product Marketing Manager

IBM Data Integration

John Wen

Product Manager

IBM Data Integration

Jason Britto

Senior Software Engineer

IBM Data Integration

Mitch Barnett

Software Development Manager

IBM Data Integration