Crie pipelines de ETL para dados não estruturados com o IBM watsonx.data integration

Três colegas de trabalho em um escritório, dois em mesa trabalhando em notebook, um em pé apontando para um papel

Autor

Scott Brokaw

Vice President, Product, Data Integration

IBM

Sophie Jin

Product Manager

Innovations Lead

Caroline Garay

Product Marketing Manager

IBM Data Integration

Em 11 de junho de 2025, a IBM lançou a disponibilidade de sua nova abordagem para integração de dadoswatsonx.data integration. Essa solução oferece um único plano de controle para criar pipelines em lote, de streaming em tempo real e replicação de dados, sustentados por observabilidade integrada.

Dentro da mesma solução, as equipes podem construir pipelines de dados não estruturados reutilizáveis juntamente com os estruturados, liberando uma mina de ouro de dados anteriormente inacessíveis para impulsionar novos casos de uso e atender às demandas em evolução dos ambientes de dados modernos. Com o recurso de integração de dados não estruturados (UDI) da watsonx.data integration,  os usuários podem criar intuitivamente pipelines que ingerem, transformam e processam grandes volumes de dados não estruturados, incluindo documentos, PDFs, PPTs e outros, em apenas alguns minutos.

Esse produto combina código aberto revolucionário e inovações proprietárias diretamente da IBM Research. Algumas funcionalidades de primeira classe do produto incluem:

  • Ingestão sem dificuldade de diversos tipos de dados não estruturados de uma ampla variedade de fontes de negócios usando conectores criados previamente
  • Transformação de arrastar e soltar com operadores criados previamente e respaldados pela IBM Research para limpeza, normalização e preparação de conteúdo não estruturado para IA
  • População de armazenamento de vetores automatizada, permitindo que os embeddings sejam armazenados em bancos de dados de vetores compatíveis para geração aumentada de recuperação (RAG) e outros casos de uso de IA

Projetado para lidar com os dados corporativos que têm sido tradicionalmente subutilizados, o watsonx.data integration marca um grande passo na liberação de dados não estruturados para IA e análise de dados.

Características principais do recurso de UDI

A maioria dos dados públicos já está bem representada nos modelos de base atuais. Portanto, a verdadeira vantagem competitiva vem de aproveitar seus dados empresariais. No entanto, 90% dos dados empresariais são não estruturados, um volume avassalador de informações que permanece inexplorado, de documentos e PDFs a e-mails, imagens e registros. A maioria deles permanece fora do alcance dos fluxos de trabalho tradicionais de análise de dados e IA. E, devido à complexidade do acesso e do gerenciamento, apenas 1% é atualmente usado em IA generativa.

Saiba mais sobre os desafios das abordagens tradicionais de dados não estruturados. O IBM watsonx.data integration e seu ecossistema mais amplo de ferramentas foram projetados para lidar com esses desafios de frente. Veja abaixo as características principais do recurso de UDI que ajudam as organizações a navegar no cenário de dados em rápida evolução de hoje.

1. Conectores criados previamente

Essa solução inclui conectores criados previamente que permitem aos usuários ingerir uma ampla gama de fontes de dados e formatos comumente usados, juntamente com seus metadados e controles de acesso associados, em escala e à medida que evoluem. Embora existam alguns conectores não estruturados no mercado, poucos conseguem se adaptar dinamicamente à medida que os documentos ou permissões mudam ao longo do tempo.

2. Operadores criados previamente

Desenvolvido em colaboração com a IBM Research, o watsonx.data integration combina inovação com as principais tecnologias de código aberto para trazer processamento de dados não estruturados para o pipeline de dados moderno. Sua tela visual inclui operadores criados especificamente para texto e outras modalidades, abrangendo mascaramento de informação de identificação pessoal (PII), detecção de ódio, abuso e palavrões (HAP), filtragem de qualidade, detecção de linguagem e pontuação de confiança. Os desenvolvedores podem projetar um único pipeline para processar diversos tipos de arquivos em escala, sem escrever nem manter código personalizado. Assim como o ELT de arrastar e soltar para dados estruturados, o watsonx.data integration traz a mesma experiência intuitiva e de pouco código/no-code para dados não estruturados e também apresenta um Python SDK completo para aqueles que preferem trabalhar de forma mais programática.

Além disso, operadores criados previamente para embedding, fragmentação e vetorização permitem que os usuários transformem documentos brutos em representações estruturadas otimizadas para IA downstream. Esses operadores convertem automaticamente conteúdo não estruturado em vetores semanticamente significativos, possibilitando casos de uso como RAG, classificação de documentos e pesquisa inteligente— tudo isso sem exigir conhecimento especializado profundo de aprendizado de máquina (ML) .

3. Escalabilidade e otimização

Essa compatibilidade com a integração de dados não estruturados é arquitetada para processar petabytes de conteúdo complexo e não estruturado de forma eficiente. Documentos de 10 MB ou mais (em milhares de arquivos) são compactados em um formato unificado de alto desempenho, permitindo processamento e reprocessamento rápidos. Essa arquitetura foi desenvolvida especificamente para atender às demandas de dados não estruturados em escala empresarial.

4. Atualizações incrementais em um pipeline dinâmico

O pipeline é compatível com estruturas de dados de autoatualização. Quando um documento de origem, digamos, "Documento A", é atualizado para uma nova versão, somente o delta é capturado e propagado sem dificuldades para o recebimento de dados, inclusive para o banco de dados de vetores. Isso garante que milhares de pipelines em escala permaneçam atualizados sem a necessidade de reprocessamento completo.

5. Sistemas de lista de controle de acesso (ACLs)

Compatibilidade nativa com ACLs, garantindo que as permissões em nível de documento sejam preservadas em todo o pipeline de dados. Isso significa que os usuários acessam somente os dados que estão autorizados a ver — crítico para manter a segurança, a conformidade e a confiança, enquanto os dados não estruturados fluem entre equipes e aplicações.

Fundamentos técnicos do código aberto

Em última análise, nenhuma organização sozinha pode remediar os problemas mencionados no vácuo. A compatibilidade do watsonx.data integration com UDI é construída com base em uma infraestrutura flexível baseada em ferramentas modernas de código aberto. Veja abaixo os principais componentes técnicos que formam essa base.

1. Nascido de demandas de LLMs do mundo real

A compatibilidade do watsonx.data integration com o UDI foi desenvolvida em resposta à experiência da própria IBM na criação da família de modelos de base Granite. O processamento e a preparação dos 12 trilhões de tokens usados para treinar o Granite expuseram lacunas críticas nas ferramentas de dados não estruturados existentes. Em resposta, a IBM Research criou o Data Prep Kit (DPK) e o Data and Model Factory (DMF): frameworks modulares que oferecem operadores de limpeza robustos em modalidades como texto, código, linguagens e imagens. Esses componentes testados em batalha, agora empacotados no watsonx.data integration, foram projetados para casos de uso de alto rendimento e de nível de produção. Hoje, o DPK foi disponibilizado de código aberto por meio da Linux Foundation, continuando a missão da IBM de democratizar o acesso a ferramentas avançadas de dados não estruturados .

2. Os melhores recursos de extração da categoria

A compatibilidade do watsonx.data integration com UDI também incorpora o Watson Document Understanding and o Docling, uma iniciativa da IBM de código aberto com mais de 30 mil estrelas do GitHub, para fornecer análise de documentos de última geração e extração de entidades. Essas tecnologias se destacam em tarefas de extração complexas, incluindo extração de tabelas, com velocidade e precisão líderes do setor.

3. Compatibilidade com armazenamento de vetores flexível

Quer você prefira opções de código aberto, como o Milvus, e/ou bancos de dados de vetores gerenciados, a UDI do watsonx.data integration oferece opções de compatibilidade. Os pipelines de vetorização são incorporados nativamente na plataforma, permitindo a rápida implementação em sua solução de armazenamento preferida para cargas de trabalho de RAG e pesquisa semântica.

4. Integração do LangChain e orquestração

O watsonx.data integration está testando ativamente integrações com o Langchain e outros frameworks populares de código aberto — trazendo um verdadeiro aumento de inovação impulsionada pela comunidade para a plataforma. Essas integrações permitem a orquestração full stack de funções criadas ou aproveitadas via LangChain diretamente em um pipeline nativo do watsonx.data integration, preservando a governança de nível empresarial, a segurança e a escalabilidade necessárias para uso em produção.

Transforme conteúdo bruto em insights prontos para a IA

Com o IBM watsonx.data integration, os clientes podem liberar todo o potencial dos dados não estruturados por meio de uma combinação poderosa de inovação de código aberto e tecnologia empresarial proprietária. Da geração de conteúdo personalizado à agregação de faturas e à tomada de decisão agêntica, o UDI transforma o conteúdo bruto em insights prontos para a IA — agora disponíveis como parte do IBM watsonx.data integration.

O que diferencia essa oferta é sua capacidade de unificar dados estruturados e não estruturados em uma única plataforma, simplificando a construção de pipelines e a proliferação de ferramentas, acelerando os resultados. Não importa o caso de uso, a watsonx.data integration é a base para liberar o valor de negócios de todos os seus dados.

Experimente o watsonx.data integration sem custo