A IA generativa mudou o setor de tecnologia ao introduzir novos riscos para os dados, como vazamento de dados confidenciais por meio de grandes modelos de linguagem (LLMs) e ao aumentar as exigências de órgãos regulatórios e governos. Para navegar por esse ambiente com sucesso, é importante que as organizações analisem os princípios fundamentais do gerenciamento de dados. E garantam que estejam usando uma abordagem sólida para aumentar os grandes modelos de linguagem com dados corporativos/não públicos.

Um bom ponto de partida é a atualização da forma como a organização controla os dados, especialmente no que diz respeito ao seu uso em soluções de IA generativa. Por exemplo:

Validação e criação de recursos de proteção de dados: as plataformas de dados devem ser preparadas para níveis mais altos de proteção e monitoramento. Isso requer recursos tradicionais como criptografia, anonimização e tokenização, mas também a criação de recursos para classificar automaticamente os dados (sensibilidade, alinhamento de taxonomia) usando aprendizado de máquina. Ferramentas de descoberta de dados e catalogação podem ajudar, mas devem ser ampliadas para tornar a classificação específica para o entendimento da organização sobre seus próprios dados. Isso permite que as organizações apliquem efetivamente novas políticas e preencham a lacuna entre os entendimentos conceituais dos dados e a realidade de como as soluções de dados foram implementadas.

Melhoria dos controles, da auditabilidade e da supervisão: o acesso a dados, o uso e o envolvimento de terceiros com os dados corporativos exige novos designs com as soluções existentes. Por exemplo, capture uma parte dos requisitos necessários para garantir o uso autorizado dos dados. Porém, as empresas precisam de trilhas de auditoria completas e sistemas de monitoramento. Isso serve para rastrear como os dados são usados, quando os dados são modificados e se os dados são compartilhados por meio de interações com terceiros para soluções de IA generativa e não IA generativa. Não é mais suficiente controlar os dados restringindo o acesso a eles, devemos também rastrear os casos de uso para os quais os dados são acessados e aplicados dentro das soluções analíticas e operacionais. Alertas automatizados e relatórios de acesso e uso inadequados (medidos por análise de consultas, exfiltração de dados e movimentação de rede) devem ser desenvolvidos pelas equipes de infraestrutura e gestão de dados e avaliados regularmente para garantir proativamente a conformidade.

Preparação de dados para a IA generativa: há um desvio dos padrões e skills tradicionais de gerenciamento de dados que requer uma nova disciplina para garantir a qualidade, a precisão e a relevância dos dados para o treinamento e aumento de modelos de linguagem para uso de IA. Com os bancos de dados de vetores se tornando comuns no domínio da IA generativa, a gestão de dados deve ser aprimorada para dar conta de plataformas de gerenciamento de dados não tradicionais. Isso visa garantir que as mesmas práticas de governança sejam aplicadas a esses novos componentes arquitetônicos. A linhagem de dados se torna ainda mais importante à medida que a necessidade de fornecer "explicabilidade" nos modelos é exigida pelos órgãos regulatórios.

Os dados empresariais geralmente são complexos, diversos e espalhados por vários repositórios, dificultando a integração às soluções de IA generativa. Essa complexidade é agravada pela necessidade de garantir a conformidade regulatória, mitigar riscos e lidar com lacunas de habilidades na integração de dados e padrões de geração aumentada de recuperação (RAG). Além disso, os dados muitas vezes são uma reflexão tardia no projeto e na implementação das soluções de IA generativa, levando a ineficiências e inconsistências.