O que é engenharia de dados de IA agêntica?

Engenharia de dados de IA agêntica, definida

A engenharia de dados de IA agêntica é a implementação de agentes de inteligência artificial (IA) com o objetivo de melhorar e acelerar a criação e manutenção de sistemas que agregam e analisam dados.

 

Como o próprio nome sugere, a engenharia de dados de IA agêntica é a fusão da engenharia de dados com a IA agêntica. A primeira consiste na prática de desenvolver e manter a infraestrutura de dados e pipelines de dados, que são parte integrante do gerenciamento de dados.

Esta última refere-se a sistemas de inteligência artificial, que podem atingir objetivos específicos com supervisão humana limitada. Em uma framework de sistemas multiagentes, as subtarefas executadas por vários agentes de IA (modelos de aprendizado de máquina que imitam a tomada de decisão humana) são coordenadas por meio da orquestração de IA.

Na engenharia de dados, os agentes de IA podem executar processos de resolução de problemas multietapas, fundamentais para garantir que dados de alta qualidade estejam disponíveis para casos de uso corporativos. Esses processos incluem o projeto de pipelines e a execução de tarefas críticas de processamento de dados, como transformações de dados e detecção de problemas de dados.

Também conhecida como engenharia de dados agêntica, a engenharia de dados de IA agêntica pode reduzir significativamente as cargas de trabalho das equipes de engenharia de dados e, ao mesmo tempo, otimizar o desempenho dos pipelines de dados. Além disso, a engenharia de dados de IA agêntica pode capacitar os usuários corporativos a acessar e obter insights de dados corporativos, mesmo que não tenham habilidades técnicas.

O que torna a IA agêntica importante para a engenharia de dados?

Para entender por que os sistemas de IA agêntica estão sendo adotados para a engenharia de dados, é útil dar uma olhada mais de perto na natureza da engenharia de dados moderna.

A engenharia de dados é crítica para empresas que buscam liberar valor de ecossistemas de dados cada vez mais vastos e complexos. Os engenheiros de dados ajudam a estruturar e garantir a funcionalidade dos fluxos de trabalho que convertem dados brutos em saídas que fornecem valor comercial do mundo real. Quando executada com sucesso, a engenharia de dados resulta na entrega de conjuntos de dados limpos, precisos e oportunos, que podem ser analisados para gerar insights praticáveis ou usados para alimentar iniciativas de IA.

À medida que as organizações aceleram sua dependência da tomada de decisão baseada em dados, incluindo a tomada de decisão urgente baseada em dados em tempo real, a necessidade de pipelines de dados confiáveis nunca foi tão alta. Mas os desafios de manter esses pipelines também nunca foram tão altos — os engenheiros de dados agora têm a tarefa de supervisionar stacks de dados e processos de orquestração cada vez mais complexos.

Inevitavelmente, isso significa que as equipes de dados gastam grande parte do seu tempo no “combate a incêndios”. Em outras palavras, elas se concentram na manutenção e na solução de problemas para lidar com os problemas de pipelines de dados e, pior ainda, as falhas de pipelines de dados.

"Quando as equipes de engenharia de dados estão construindo pipelines, os engenheiros frequentemente dependem de uma combinação de trabalhos agendados, procedimentos armazenados, scripts complicados, bem como lógica de transformação. E cada um deles trabalha em conjunto apenas para manter o fluxo de dados. Às vezes, quando uma única alteração de esquema ou renomeação de coluna acontece em um sistema de origem, isso pode desencadear horas de depuração e novos testes”, explicou Justin Yan, Gerente de Produtos Sênior de Dados e IA da IBM, em um vídeo da IBM Technology.

Felizmente, agentes de IA agora podem ser implementados para lidar com grande parte desse trabalho e para evitar que surjam problemas. Os agentes inteligentes podem "resolver problemas na integração de dados, ajudando a planejar, monitorar e se adaptar aos desafios de dados, para que os dados cheguem onde precisam estar com a qualidade e pontualidade que suas cargas de trabalho exigem", disse Yan.

Principais tecnologias usadas na engenharia de dados de IA agêntica

Uma combinação de tecnologias é compatível com a implementação da IA agêntica para engenharia de dados.

Agentes de IA

Um agente de IA é um sistema que executa tarefas de forma autônoma, projetando fluxos de trabalho com as ferramentas disponíveis, incluindo fluxos de trabalho de dados. Os agentes utilizam técnicas de processamento de linguagem natural de grandes modelos de linguagem para entender e responder às entradas dos usuários de forma passo a passo e para determinar quando recorrer a ferramentas externas.

Processamento de linguagem natural

O processamento de linguagem natural (NLP) é um subcampo da ciência da computação e IA que usa aprendizado de máquina para permitir que computadores entendam e se comuniquem com a linguagem humana. O NLP desempenha um papel cada vez maior em soluções empresariais que ajudam a agilizar e automatizar operações de negócios.

Aprendizado de máquina

O aprendizado de máquina é o subconjunto da IA concentrado em algoritmos que podem "aprender" os padrões dos dados de treinamento. Esses algoritmos, então, usam esse reconhecimento de padrões para fazer inferências precisas sobre novos dados. O aprendizado de máquina fornece a base da maioria dos sistemas de IA modernos, incluindo grandes modelos de linguagem e outras ferramentas de IA generativa.

Grandes modelos de linguagem

Grandes modelos de linguagem (LLMs) são um tipo de modelo de deep learning capaz de entender e gerar linguagem natural e outros tipos de conteúdo para realizar uma infinidade de tarefas. Seus recursos decorrem de técnicas de processamento de linguagem natural e treinamento em enormes quantidades de dados, o que os ajuda a lidar com linguagem humana não estruturada em escala.

Como funciona a engenharia de dados de IA agêntica?

Embora o uso de agentes autônomos para engenharia de dados possa variar de acordo com o sistema de dados e a equipe de engenharia, aqui está uma visão geral de como sistemas impulsionados por IA podem lidar com diferentes processos e tarefas de engenharia de dados em um ciclo de vida de dados.

Criação de pipelines de dados

A engenharia de dados de IA agêntica permite que as organizações automatizem a criação de pipelines de dados. Os usuários podem declarar sua intenção em relação ao que um pipeline entrega usando linguagem natural, sem delinear as etapas necessárias para alcançar os resultados desejados. Cabe ao agente de IA determinar como o pipeline funcionará. Isso é conhecido como criação declarativa de pipelines e é uma alternativa à abordagem mais prática de programação de cada etapa dos pipelines.

Depois que um usuário envia uma solicitação em linguagem natural, os LLMs analisam a solicitação e entendem a intenção do usuário. Em seguida, um agente de IA projeta e, muitas vezes, implementa um processo de ponta a ponta, que inclui:

  • Conexão e ingestão de fontes de dados
  • Aplicação de transformações de dados
  • Portabilidade de novos dados para um sistema de destino

Usuários com mais conhecimento técnico podem optar por especificar a estrutura dos pipelines de dados solicitados. Eles podem fazer isso usando um kit de desenvolvimento de software Python (SDK), que permite que os LLMs escrevam e executem scripts Python com base nas solicitações dos usuários para várias tarefas relacionadas a dados, como selecionar uma fonte de dados ou participar da limpeza de dados.

Execução de trabalhos

Depois que o pipeline é projetado, um sistema de IA agêntica pode executar as cargas de trabalho. Os agentes de IA se envolvem em chamadas deferramentas para interagir com ferramentas externas, interfaces de programação de aplicativos (APIs) ou sistemas necessários para conectar-se a fontes de dados, entender metadados e realizar transformações.

Os agentes também selecionam o caminho de execução ideal para fluxos de trabalho de dados em ambientes híbridos. Isso inclui a escolha dinâmica das melhores abordagens de integração (streaming em tempo real, lote ETL/ELT ou replicação) e ambientes de tempo de execução (no local, em um ambiente de nuvem ou por meio de pushdown e mecanismos remotos) para cada parte do trabalho.

O aprendizado por reforço pode ajudar os agentes a melhorar os planos de pipelines ao longo do tempo, recompensando execuções de pipelines configuradas e concluídas corretamente.

Monitoramento contínuo

Um sistema agêntico pode permitir a observabilidade ao monitorar continuamente os pipelines. Os agentes podem detectar desvios de esquema, anomalias de dados e problemas de qualidade de dados. Eles também podem oferecer suporte à análise da causa raiz dos problemas de pipelines, recomendar etapas de remediação e executar essas etapas.

A execução autônoma de correções de pipelines pode ser especialmente útil em momentos inconvenientes. “E se um trabalho noturno falhar? Em vez de chamar alguém, o agente pode tentar novamente as execuções, ampliar os mecanismos e ajustar a lógica do fluxo automaticamente”, explicou o Gerente de Produtos da IBM, John Wen, em um vídeo da IBM Technology.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Quais são os benefícios da engenharia de dados de IA agêntica?

A engenharia de dados de IA agêntica oferece uma série de benefícios para as organizações, suas equipes de dados e seus usuários corporativos. Essas vantagens são:

Gerenciamento da complexidade em ambientes de dados

Um desafio fundamental enfrentado pelos engenheiros de dados atualmente é organizar dados em ambientes complexos e isolados: diferentes nuvens, data warehouses, data lakes, servidores locais e muito mais. Alguns dados são organizados em planilhas e SQL databases, mas grande parte deles não é estruturada em documentos, e-mails, transcrições e imagens. Em um sistema corporativo, os agentes de IA podem se conectar a uma variedade de fontes de dados e integrar vários formatos de dados, criando plataformas de dados unificadas que permitem análise de dados e forecasting mais precisas.

Melhoria da qualidade de dados

Os agentes de IA podem automatizar a criação de perfis de dados, a validação de dados, a criação de regras, o monitoramento e a remediação. "Os agentes seriam capazes de detectar alterações de colunas ou incompatibilidades de tipos antecipadamente e propor correções antes que os trabalhos falhassem. Verificações contínuas de anomalias, preenchimentos automáticos e redirecionamento em torno de fontes de dados com falha ajudarão a manter os dados confiáveis para usos posteriores em sistemas de IA", explicou Yan.

Melhoria da eficiência

Os agentes de IA podem avaliar diferentes estratégias de execução e identificar possíveis gargalos e complicações, como dependências ocultas em diferentes stacks de aplicações. Ao considerar essas informações no projeto de pipelines, eles podem elaborar planos que minimizem o consumo de recursos e o tempo operacional, enquanto ainda atingem as metas de dados.

Além disso, à medida que a infraestrutura ou os esquemas mudam, os sistemas agênticos podem adaptar e reutilizar os pipelines existentes, ajudando as empresas a evitar o acúmulo de pipelines obsoletos e dívida técnica.

Apoio à conformidade regulamentar

O projeto de pipelines e o monitoramento contínuo por agentes de IA podem garantir que dados confidenciais estejam em conformidade com as leis de privacidade de dados, como a Lei de portabilidade e responsabilidade de planos de saúde dos EUA de 1996 (HIPAA) e o Regulamento Geral de Proteção de Dados (RGPD) da União Europeia. Além disso, orastreamento de linhagem por agentes de IA pode apoiar a transparência e a auditabilidade.

Fornecimento de autoatendimento para usuários corporativos

Os usuários corporativos com pouco ou nenhum conhecimento técnico não precisam mais depender exclusivamente de profissionais de dados para ajudá-los a atender às suas necessidades de dados. Eles podem solicitar a criação ou entrega de conjuntos de dados de agentes de IA em vez de esperar pela assistência de um profissional de dados, ajudando-os a obter insights importantes mais rápido.

Viabilização do crescimento escalável

Os agentes de IA podem projetar, construir e executar pipelines de dados totalmente funcionais em uma fração do tempo que as equipes de dados levariam para codificar manualmente esses pipelines. Os agentes de IA também podem tornar esses pipelines adaptáveis e com "autocorreção", ou seja, eles podem monitorar e lidar com problemas antes que interrompam os processos posteriores. No geral, isso significa que as empresas podem continuar adicionando com confiança pipelines à medida que seus ambientes de dados e necessidades de dados crescem e evoluem.

Aumento da largura de banda para engenheiros de dados

Ao transferir tarefas de projeto, manutenção e solução de problemas de pipelines para sistemas de IA agêntica, os engenheiros de dados podem aumentar sua produtividade e ganhar mais largura de banda para realizar tarefas de alto valor e trabalho significativo, como construir e testar novos recursos.

Considerações para engenharia de dados de IA agêntica

Assim como em outros casos de uso da IA, as empresas devem considerar vários desafios potenciais ao buscar implementar a IA agêntica para a engenharia de dados.

  • A dificuldade de integrar agentes de IA com sistemas legados mais antigos, que não são inerentemente compatíveis com a tecnologia de IA.

  • O risco de agentes executarem tarefas inesperadas de forma  autônoma (como reprocessar grandes volumes de dados durante o horário comercial), que interrompem os fluxos de trabalho.

  • O risco de agentes contribuírem para a violação de dados, seja porque foram comprometidos por um ataque cibernético ou simplesmente por causa de uma saída da IA não confiável.

As soluções e plataformas de software podem ajudar as empresas a lidar com os desafios de incorporar a IA agêntica (incluindo sistemas orientados por IA para engenharia de dados) nos fluxos de trabalho diários.

Ferramentas robustas de governança de IA permitem a embedding de proteções para limitar comportamentos não intencionais dos agentes e a implementação de métricas especializadas para avaliar o desempenho dos agentes. As soluções de orquestração de IA podem ajudar a preencher as lacunas entre tecnologias avançadas de IA e sistemas corporativos mais antigos sem reengenharia demoradas.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

  1. Explore soluções de gerenciamento de dados
  2. Conheça o watsonx.data