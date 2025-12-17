Inteligencia artificial Automatización de TI

Cree pipelines de datos como código: presentación del SDK de Python de IBM® watsonx.data integration

La disponibilidad general del SDK de Python de watsonx.data integration representa un hito clave en la visión de IBM de una base de datos lista para IA, lo que permite a los equipos de datos escalar el desarrollo de pipelines y potenciar agentes con datos de alta calidad. 

Publicado el 17 de diciembre de 2025
El SDK de Python de watsonx.data integration introduce un modelo de código primero que se basa en las habilidades existentes de Python y ofrece a los agentes una interfaz consistente para la generación y validación del código. A medida que los equipos de datos se preparan para la IA agéntica, el desarrollo de pipelines debe contar con otra opción que sea compatible con la generación de LLM.

El SDK de Python permite ese cambio al posibilitar que los equipos construyan, versionen, automatizen y gobiernen pipelines de streaming por lotes y en tiempo real como código, reduciendo el esfuerzo manual y facilitando la integración escalable de datos. Junto con nuestra continua inversión en la creación de pipelines agénticos (en vista previa), este lanzamiento refuerza el compromiso de IBM de reunirse con los clientes donde se encuentran mientras construyen bases de datos listas para IA.

Satisfacer las demandas de la IA agéntica requiere un desarrollo flexible de pipelines

Todas las organizaciones sienten la presión del panorama actual en materia de datos: los equipos comerciales necesitan información más rápida, los equipos de datos se ven desbordados por sistemas frágiles y fragmentados, y los responsables del cumplimiento normativo se preocupan por la posibilidad de que se pierda información confidencial. Estas presiones se intensifican con el auge de la IA agéntica, en la que el éxito depende no solo de modelos potentes, sino de la solidez de la base de datos que los sustenta.

En el núcleo de esa base está la integración de datos: los pipelines que conectan, transforman y entregan datos para que se pueda confiar en ellos y utilizarlos. Cuando la integración falla, la IA falla. Según The GenAI Divide del MIT, el 95 % de los pilotos de IA generativa fracasan no porque los modelos no sean suficientes, sino porque la base de datos no está lista. Al mismo tiempo, se está pidiendo a los equipos de datos que construyan y gestionen más pipelines en más tipos de datos y entornos, aunque el 77 % de las organizaciones reportan una escasez de las habilidades requeridas.

Esta creciente brecha entre la demanda y la capacidad deja claro que el desarrollo de los pipelines debe ser flexible y llegar a los usuarios allí donde se encuentren. La autoría tradicional ya no es suficiente. Los usuarios empresariales quieren expresar su intención a través del lenguaje natural. Los profesionales técnicos quieren código. Y muchos equipos confían en un lienzo visual para un diseño rápido.

IBM está invirtiendo profundamente en este enfoque multimodal para watsonx.data integration pueda apoyar a cada usuario en su flujo de trabajo preferido.

Un enfoque basado en el código para crear pipelines de datos

El nuevo SDK de Python de IBM® watsonx.data integration es un gran paso adelante en esa visión, ya que ofrece a los desarrolladores e ingenieros de datos una potente forma de crear, automatizar y mantener pipelines mediante programación, reduciendo el esfuerzo manual y acelerando el tiempo de obtención de valor.

Los ingenieros de datos y los desarrolladores de ETL han valorado durante mucho tiempo la elección de cómo crear pipelines de datos, incluido el uso de interfaces visuales no-code/low-code o la codificación directa. Independientemente del estilo de autoría, los pipelines pueden definirse una vez, versionarse en Git e implementarse de forma consistente a través de flujos de trabajo CI/CD. Cada enfoque responde a diferentes necesidades y habilidades dentro de los equipos de datos.

Ahora, con el SDK de Python, los equipos pueden crear y gestionar pipelines de integración de datos utilizando uno de los lenguajes más adoptados en ingeniería de datos. Dado que los ingenieros de datos se sienten cómodos leyendo, escribiendo y revisando código Python, aplican esas mismas habilidades a IBM watsonx.data integration. Los pipelines como código desbloquearán nuevas rutas para la reutilización del código. Al poner a disposición este SDK de Python, los equipos de datos pueden elegir entre múltiples opciones de autoría que se ajusten a sus habilidades y preferencias.

Con el SDK, los equipos pueden:

1. Pipelines como código:

  • Definir y reutilizar la lógica de pipelines en Python a través de entornos
  • Cambiar versiones, revisar y auditar a través de Git y solicitudes de extracción.
  • Crear conexiones y diseñar, gestionar y ejecutar pipelines completamente en código
  • Automatizar las pruebas, promociones e implementaciones con CI/CD
  • Implementar controles de gobierno y acceso coherentes mediante programación

2. Acceda a una experiencia de integración de datos unificada con un SDK

  • Utilizar un solo SDK tanto para pipelines de lote (ETL/ELT/TETL) como para streaming en tiempo real
  • Eliminar scripts personalizados y paquetes específicos de herramientas con un modelo de programación coherente
  • Diseñado para extenderse a otros estilos de integración, incluyendo datos no estructurados, replicación y más
  • Agilizar la administración de la plataforma con un control programático sobre usuarios, proyectos y ajustes de seguridad

3. Un puente bidireccional entre el diseño visual y el código:

  • Crear prototipos de pipelines en el lienzo visual o crearlos directamente en Python
  • Moverse de manera fluida entre la IU y el código con exportación e importación instantáneas a través de nuestro generador de código Python SDK
  • Acelerar la incorporación y, al mismo tiempo, permita la automatización y la CI/CD a escala
  • Mantener los flujos de trabajo visuales y programáticos estrechamente conectados

En conjunto, estas capacidades sientan las bases para la próxima era de integración, donde los pipelines se comportan como software, la automatización es la norma y los futuros agentes de IA pueden razonar, optimizar e incluso mantener flujos de datos a escala.

Patrones del mundo real: cómo los equipos utilizan el SDK de Python para escalar el trabajo de integración

Aunque el SDK introduce un enfoque programático para el desarrollo de pipelines, su impacto es más visible en la forma en que los equipos lo aplican día a día. Los primeros adoptantes están convergiendo en un conjunto de patrones comunes que les ayudan a escalar más rápido, reducir la duplicación y operar con mayor consistencia.

Caso de uso 1: convertir un único pipeline en una plantilla reutilizable

Un punto de partida común es un sencillo pipeline construido con una IU. Por ejemplo, consumir un CSV, aplicar una transformación y escribir los resultados en el almacenamiento en la nube. A medida que crece la demanda, otros equipos quieren la misma lógica con diferentes entradas.

Con el SDK de Python, ese pipeline original puede exportarse a Python utilizando nuestra nueva característica de generación de código Python y convertirse en una plantilla parametrizada reutilizable. Las nuevas características del SDK de Parameter Sets y Value Sets le permiten trasladar estas configuraciones fuera de la interfaz de usuario y llevarlas al control de versiones. En lugar de escribir valores manualmente en los formularios, puede definir e inyectar configuraciones para los entornos de desarrollo, prueba y producción de una sola vez. Las variaciones se crean ajustando unas pocas líneas de código en lugar de rediseñar el pipeline desde cero, lo que se traduce en una entrega más rápida, menos errores y un patrón escalable que los equipos pueden estandarizar.

Caso de uso 2: modificar pipelines a escala para la migración de infraestructura

Otro desafío común surge cuando los pipelines deben actualizarse con muchas fuentes de datos o entornos afectados, por ejemplo, durante una migración de base de datos o almacén de datos. En lugar de actualizar los pipelines en la IU, los equipos pueden utilizar el SDK para duplicar flujos de forma programática, actualizar conectores y configuraciones de conexión, ajustar parámetros y publicar actualizaciones en cuestión de segundos. Esto es especialmente valioso en entornos en los que los pipelines deben evolucionar rápidamente a medida que cambian las fuentes de datos.

El SDK puede conectarse de forma segura a su entorno híbrido, ya sea en la nube pública/SaaS o en entornos de software autogestionados. En lugar de docenas de ediciones manuales, un cambio en el código puede aplicarse de forma coherente en todas partes.

Estos patrones apuntan a un cambio más amplio: de la configuración manual al desarrollo repetible e impulsado por software. Al tratar los pipelines como código, las organizaciones pueden escalar la integración de datos de forma más fiable y construir la base sólida de datos necesaria para la IA agéntica.

Integración total

El SDK de Python de watsonx.data integration es un hito clave en la visión de IBM de una base de datos lista para IA. Al incorporar la automatización programática a watsonx.data integration, los equipos pueden construir y mantener pipelines con el mismo rigor y escalabilidad que desarrollando software, al tiempo que se reúnen con los usuarios en su modalidad preferida para ayudar a cerrar la brecha de habilidades en ingeniería de datos.

Como parte del amplio portfolio de watsonx.data, watsonx.data integration funciona a la perfección con watsonx.data intelligence para ofrecer una base de datos fiable y completa. En conjunto, estas ofertas permiten a las organizaciones mover, comprender, gestionar y activar datos en entornos híbridos, impulsando la inteligencia artificial y los flujos de trabajo agénticos a gran escala.

