Crie pipelines de dados como código: Apresentando o IBM watsonx.data integration Python SDK

A disponibilidade geral do watsonx.data integration Python SDK representa um marco importante na visão da IBM para uma base de dados pronta para IA, permitindo que as equipes de dados dimensionem o desenvolvimento de pipelines e fortaleçam os agentes com dados de alta qualidade. 

Publicado 17/12/2025
O watsonx.data integration Python SDK introduz um modelo code-first que se baseia nas habilidades existentes do Python e oferece aos agentes uma interface consistente para geração e validação de códigos. Enquanto as equipes de dados se preparam para a IA agêntica, o desenvolvimento do pipeline deve ter outra opção que seja amigável para a geração de LLM.

O Python SDK possibilita essa mudança permitindo que as equipes criem, versionem, automatizem e governem pipelines de streaming em lote e em tempo real como código, reduzindo o esforço manual e possibilitando a integração de dados de forma escalável. Junto com o nosso investimento contínuo na criação de pipelines agênticos (em pré-visualização), este lançamento reforça o compromisso da IBM de atender os clientes onde eles estão, enquanto constroem bases de dados prontas para IA.

Atender às demandas da IA agêntica exige um desenvolvimento de pipeline flexível

Todas as organizações sentem a pressão do cenário de dados atual: as equipes de negócios precisam de insights mais rápidos, as equipes de dados estão sobrecarregadas por sistemas frágeis e fragmentados, e os líderes de conformidade se preocupam com a possibilidade de dados confidenciais escaparem. Essas pressões se intensificam com o surgimento da IA agêntica, onde o sucesso depende não só dos modelos poderosos, mas da força da base dos dados subjacentes a eles.

No centro dessa base está a integração de dados: os pipelines que conectam, transformam e fornecem dados para que possam ser confiáveis e usados. Quando a integração falha, a IA falha. De acordo com The GenAI Divide, do MIT, 95% dos projetos-piloto de IA generativa falham não porque os modelos sejam insuficientes, mas porque a base de dados não está preparada. Ao mesmo tempo, as equipes de dados estão sendo solicitadas a construir e gerenciar mais pipelines em mais tipos de dados e ambientes, mesmo que 77% das organizações relatem escassez das habilidades necessárias.

Essa lacuna crescente entre demanda e capacidade deixa claro que o desenvolvimento de pipelines deve ser flexível, atendendo aos usuários onde eles estiverem. A criação tradicional não é mais suficiente. Os usuários corporativos desejam expressar intenção por meio de linguagem natural. Profissionais técnicos querem código. E muitas equipes contam com uma tela visual para design rápido.

A IBM está investindo profundamente nessa abordagem multimodal para que o watsonx.data integration possa dar suporte a cada usuário em seu fluxo de trabalho preferido.

Uma abordagem que prioriza o código para criar pipelines de dados

O novo IBM watsonx.data integration representa um avanço significativo nessa visão, pois oferece a desenvolvedores e engenheiros de dados uma abordagem code-first poderosa para criar, automatizar e manter pipelines de forma programática, reduzindo o esforço manual e acelerando o time to value.

Engenheiros de dados e desenvolvedores de ETL há muito valorizam a escolha de como construir pipelines de dados, incluindo o uso de interfaces visuais no-code/pouco código ou programação diretamente. Independentemente do estilo de autoria, os pipelines podem ser definidos uma vez, versionados no Git e implementados consistentemente por meio de fluxos de trabalho CI/CD. Cada abordagem atende a necessidades e conjuntos de habilidades diferentes dentro das equipes de dados.

Agora, com o SDK do Python, as equipes podem criar e gerenciar pipelines de integração de dados usando uma das linguagens mais amplamente adotadas em engenharia de dados. Como os engenheiros de dados se sentem à vontade para ler, escrever e revisar código Python, eles aplicam essas mesmas habilidades à integração do IBM watsonx.data Pipelines como código liberarão novos caminhos para reutilização de código. Ao disponibilizar esse SDK do Python, as equipes de dados podem escolher entre várias opções de autoria que se alinham com suas habilidades e preferências.

Com o SDK, as equipes podem:

1. Pipelines como código:

  • Definir e reutilizar a lógica de pipeline no Python em todos os ambientes
  • Versionar, revisar e auditar alterações por meio do Git e de pull requests
  • Criar conexões e projetar, gerenciar e executar pipelines inteiramente por código
  • Automatizar testes, promoções e implementações com CI/CD
  • Aplicar governança consistente e controles de acesso de forma programática

2. Acessar uma experiência unificada de integração de dados com um único SDK

  • Usar um único SDK tanto para pipelines em lote (ETL/ELT/TETL) quanto para pipelines de streaming em tempo real
  • Eliminar scripts personalizados e pacotes específicos de ferramentas com um modelo de programação consistente
  • Desenvolvido para se estender a outros estilos de integração, incluindo dados não estruturados, replicação e muito mais
  • Simplificar a administração da plataforma com controle programático sobre usuários, projetos e configurações de segurança

3. Uma ponte bidirecional entre design visual e código:

  • Prototipar pipelines no canvas visual ou criá-los diretamente em Python
  • Alternar de forma fluida entre interface e código, com exportação e importação imediatas por meio do gerador de código do SDK em Python
  • Acelerar o onboarding ao mesmo tempo em que viabiliza automação e CI/CD em escala
  • Manter os fluxos de trabalho visuais e programáticos fortemente conectados

Em conjunto, esses recursos lançam as bases para a próxima era da integração de dados, onde os pipelines se comportam como software, a automação é o padrão e o futuro Agente de IA pode raciocinar, otimizar e até mesmo manter fluxos de dados em escala.

Padrões do mundo real: como as equipes usam o SDK do Python para dimensionar o trabalho de integração

Embora o SDK introduza uma abordagem programática para o desenvolvimento de pipeline, seu impacto é mais visível na forma como as equipes o aplicam no dia a dia. Os primeiros a adotar estão convergindo em um conjunto de padrões comuns que os ajudam a escalar mais rapidamente, reduzir a duplicação e operar com maior consistência.

Caso de uso 1: transformar um único pipeline em um modelo reutilizável

Um ponto de partida comum é um pipeline simples criado para a interface do usuário. Por exemplo, ingestão de um CSV, aplicação de uma transformação e gravação dos resultados no armazenamento na nuvem. Conforme a demanda cresce, outras equipes querem a mesma lógica com inputs diferentes.

Com o SDK do Python, esse pipeline original pode ser exportado para o Python usando nossa nova funcionalidade de geração de código Python e transformado em um modelo reutilizável e parametrizado. Os novos recursos do SDK de Conjuntos de Parâmetros e Conjuntos de Valores permitem que você migre essas configurações para fora da IU e para o controle de versão. Em vez de digitar manualmente os valores em formulários, você pode definir e injetar configurações de forma programática para ambientes de desenvolvimento, teste e produção de uma só vez. As variações são criadas ajustando algumas linhas de código em vez de redesenhar o pipeline do zero, resultando em uma entrega mais rápida, menos erros e um padrão escalável que as equipes podem padronizar.

Caso de uso 2: modificação de pipelines em escala para migração de infraestrutura

Outro desafio comum surge quando os pipelines precisam ser atualizados com muitas fontes de dados ou ambientes afetados, por exemplo, durante a migração de um banco de dados ou armazenamento de dados. Em vez de atualizar pipelines na IU, as equipes podem usar o SDK para duplicar fluxos programaticamente, atualizar conectores e configurações de conexão, ajustar parâmetros e publicar atualizações em segundos. Isso é especialmente valioso em ambientes em que os pipelines precisam evoluir rapidamente à medida que as fontes de dados mudam.

O SDK pode se conectar com segurança ao seu ambiente híbrido, seja na nuvem pública/SaaS ou em ambientes de software autogerenciados. Em vez de dezenas de edições manuais, uma alteração no código pode ser aplicada de forma consistente em todos os lugares.

Esses padrões apontam para uma mudança mais ampla: da configuração manual para o desenvolvimento repetível e orientado por software. Ao tratar os pipelines como código, as organizações podem dimensionar a integração de dados de forma mais confiável e criar a base de dados robusta necessária para a IA agêntica.

Consolidando tudo

O watsonx.data integration Python SDK é um marco importante na visão da IBM para uma base de dados pronta para IA. Ao trazer automação programática para o watsonx.data integration, as equipes podem criar e manter pipelines com o mesmo rigor e escalabilidade do desenvolvimento de software e ainda atender aos usuários em sua modalidade preferida para ajudar a fechar a lacuna de habilidades de engenharia de dados.

Como parte do portfólio mais amplo do watsonx.data, o watsonx.data integration funciona sem dificuldades com a inteligência do watsonx.data para fornecer uma base de dados confiável de ponta a ponta. Juntos, esses serviços permitem que as organizações migrem, entendam, governem e ativem dados em ambientes híbridos, potencializando a IA e os fluxos de trabalho agênticos em escala.

Caroline Garay

Product Marketing Manager

IBM Data Integration

John Wen

Product Manager

IBM Data Integration

Jason Britto

Senior Software Engineer

IBM Data Integration

Mitch Barnett

Software Development Manager

IBM Data Integration