Reavaliação do gerenciamento de dados na era da IA generativa

Quatro colegas sentados e em pé ao redor de uma mesa em um escritório com janelas altas

Autora

Geoff Baird

Associate Partner

Data & Technology Transformation

A IA generativa mudou o setor de tecnologia ao introduzir novos riscos para os dados, como vazamento de dados confidenciais por meio de grandes modelos de linguagem (LLMs) e ao aumentar as exigências de órgãos regulatórios e governos. Para navegar por esse ambiente com sucesso, é importante que as organizações analisem os princípios fundamentais do gerenciamento de dados. E garantam que estejam usando uma abordagem sólida para aumentar os grandes modelos de linguagem com dados corporativos/não públicos.

Um bom ponto de partida é a atualização da forma como a organização controla os dados, especialmente no que diz respeito ao seu uso em soluções de IA generativa. Por exemplo:

  • Validação e criação de recursos de proteção de dados: as plataformas de dados devem ser preparadas para níveis mais altos de proteção e monitoramento. Isso requer recursos tradicionais como criptografia, anonimização e tokenização, mas também a criação de recursos para classificar automaticamente os dados (sensibilidade, alinhamento de taxonomia) usando aprendizado de máquina. Ferramentas de descoberta de dados e catalogação podem ajudar, mas devem ser ampliadas para tornar a classificação específica para o entendimento da organização sobre seus próprios dados. Isso permite que as organizações apliquem efetivamente novas políticas e preencham a lacuna entre os entendimentos conceituais dos dados e a realidade de como as soluções de dados foram implementadas.
  • Melhoria dos controles, da auditabilidade e da supervisão: o acesso a dados, o uso e o envolvimento de terceiros com os dados corporativos exige novos designs com as soluções existentes. Por exemplo, capture uma parte dos requisitos necessários para garantir o uso autorizado dos dados. Porém, as empresas precisam de trilhas de auditoria completas e sistemas de monitoramento. Isso serve para rastrear como os dados são usados, quando os dados são modificados e se os dados são compartilhados por meio de interações com terceiros para soluções de IA generativa e não IA generativa. Não é mais suficiente controlar os dados restringindo o acesso a eles, devemos também rastrear os casos de uso para os quais os dados são acessados e aplicados dentro das soluções analíticas e operacionais. Alertas automatizados e relatórios de acesso e uso inadequados (medidos por análise de consultas, exfiltração de dados e movimentação de rede) devem ser desenvolvidos pelas equipes de infraestrutura e gestão de dados e avaliados regularmente para garantir proativamente a conformidade.
  • Preparação de dados para a IA generativa: há um desvio dos padrões e skills tradicionais de gerenciamento de dados que requer uma nova disciplina para garantir a qualidade, a precisão e a relevância dos dados para o treinamento e aumento de modelos de linguagem para uso de IA. Com os bancos de dados de vetores se tornando comuns no domínio da IA generativa, a gestão de dados deve ser aprimorada para dar conta de plataformas de gerenciamento de dados não tradicionais. Isso visa garantir que as mesmas práticas de governança sejam aplicadas a esses novos componentes arquitetônicos. A linhagem de dados se torna ainda mais importante à medida que a necessidade de fornecer "explicabilidade" nos modelos é exigida pelos órgãos regulatórios.

Os dados empresariais geralmente são complexos, diversos e espalhados por vários repositórios, dificultando a integração às soluções de IA generativa. Essa complexidade é agravada pela necessidade de garantir a conformidade regulatória, mitigar riscos e lidar com lacunas de habilidades na integração de dados e padrões de geração aumentada de recuperação (RAG). Além disso, os dados muitas vezes são uma reflexão tardia no projeto e na implementação das soluções de IA generativa, levando a ineficiências e inconsistências.

Liberação de todo o potencial dos dados empresariais para a IA generativa

Na IBM, desenvolvemos uma abordagem para resolver esses desafios de dados. A fábrica de ingestão de dados de IA generativa da IBM, um serviço gerenciado projetado para lidar com o "problema de dados" da IA e liberar todo o potencial dos dados corporativos para a IA generativa. Nossa arquitetura predefinida e blueprints que podem ser implementados como um serviço gerenciado simplificam e aceleram o processo de integração de dados corporativos às soluções de IA generativa. Abordamos esse problema com o gerenciamento de dados em mente, preparando dados para governança, risco e conformidade desde o início. 

Nossos principais recursos incluem:

  • Ingestão de dados escalável: serviços reutilizáveis para escalar ingestão de dados e RAG em casos de uso e soluções de IA generativa, com padrões otimizados de fragmentação e embedding.
  • Regulatórios e conformidade: os dados são preparados para uso de IA generativa que atende às regulamentações atuais e futuras, ajudando as empresas a atender aos requisitos de conformidade com as regulamentações de mercado focadas em IA generativa.
  • Gerenciamento de privacidade de dados: textos longos podem ser anonimizados à medida que são descobertos, reduzindo riscos e garantindo a privacidade de dados.

O serviço é agnóstico, permitindo a implementação em qualquer lugar, e oferece personalização para ambientes de clientes e casos de uso. Com a fábrica de ingestão de dados de IA generativa da IBM®, as empresas podem alcançar vários resultados importantes, incluindo:

  • Redução do tempo gasto na integração de dados: um serviço gerenciado que reduz o tempo e o esforço necessários para resolver o "problema de dados" da IA. Por exemplo, usar um processo repetível para "fragmentação" e "embedding" de dados para que não exija esforços de desenvolvimento para cada novo caso de uso de IA generativa.
  • Uso de dados em conformidade: ajuda a cumprir os regulamentos de uso de dados focados em aplicações de IA generativa implementadas pela empresa. Por exemplo, garantir que os dados provenientes dos padrões de RAG sejam aprovados para uso empresarial nas soluções de IA generativa.
  • Mitigação de riscos: redução de riscos associados aos dados usados em soluções de IA generativa. Por exemplo, fornecer resultados transparentes sobre quais dados foram obtidos para produzir uma saída de um modelo reduz o risco do modelo e o tempo gasto para provar aos reguladores como as informações foram obtidas.
  • Resultados consistentes e reproduzíveis: entrega de resultados consistentes e reproduzíveis de LLMs e soluções de IA generativa. Por exemplo, captura da linhagem e comparação de saídas (ou seja, dados gerados) ao longo do tempo para relatar a consistência por meio de métricas padrão, como ROUGE e BLEU.

Navegar nas complexidades do risco de dados exige uma experiência de funções transversais. Nossa equipe de ex-reguladores, líderes de setores e especialistas em tecnologia da IBM® Consulting estão posicionados de maneira única para lidar com isso com nossos serviços e soluções de consultoria. 

 
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data