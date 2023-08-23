O recente sucesso dos modelos de grandes linguagens baseados em inteligência artificial levou o mercado a pensar de forma mais ambiciosa sobre como a IA poderia transformar muitos processos corporativos. No entanto, consumidores e reguladores também estão cada vez mais preocupados com a segurança de seus dados e dos próprios modelos de IA. A adoção segura e generalizada da IA exigirá que adotemos a governança de IA em todo o ciclo de vida dos dados para fornecer confiança aos consumidores, empresas e reguladores. Mas como isso se parece?
Na maioria das vezes, os modelos de inteligência artificial são bastante simples, eles coletam dados e aprendem padrões com esses dados para gerar uma saída. Os grandes modelos de linguagem complexos (LLMs), como o ChatGPT e o Google Bard, não são diferentes. Por isso, quando procuramos gerenciar e governar a implementação de modelos de IA, devemos primeiro nos concentrar em controlar os dados nos quais os modelos de IA são treinados. Essa gestão de dados exige que entendamos a origem, a sensibilidade e o ciclo de vida de todos os dados que usamos. É a base para qualquer prática de governança de IA e é crucial na mitigação de uma série de riscos empresariais.
Grandes modelos de linguagem podem ser treinados com dados proprietários para atender a casos de uso empresariais específicos. Por exemplo, uma empresa pode pegar o ChatGPT e criar um modelo privado treinado com os dados de vendas de CRM da empresa. Este modelo pode ser implementado como um chatbot do Slack para ajudar as equipes de vendas a encontrar respostas para perguntas como “Quantas oportunidades o produto X ganhou no último ano?” ou "Atualize-me sobre a oportunidade do produto Z com a empresa Y".
Você pode facilmente imaginar esses LLMs sendo ajustados para inúmeros casos de uso de atendimento ao cliente, RH ou marketing. Podemos até mesmo ver esses conselhos jurídicos e médicos aumentando, transformando LLMs em uma ferramenta de diagnóstico de primeira linha usada por prestadores de serviços de saúde. O problema é que esses casos de uso exigem o treinamento de LLMs em dados proprietários confidenciais. Isso é inerentemente arriscado. Alguns desses riscos são:
Os modelos de IA aprendem com dados de treinamento; mas, e se esses dados forem privados ou confidenciais? Uma quantidade considerável de dados pode ser usada direta ou indiretamente para identificar indivíduos específicos. Portanto, se estivermos treinando um LLM com dados proprietários dos clientes de uma empresa, podemos nos deparar com situações em que o consumo desse modelo pode ser usado para o vazamento de informações confidenciais.
Muitos modelos de IA simples têm uma fase de treinamento e depois uma fase de implementação durante a qual o treinamento é pausado. Os LLMs são um pouco diferentes. Eles levam o contexto da sua conversa, aprendem com isso e respondem de acordo.
Isso torna o trabalho de controlar os dados de entrada do modelo infinitamente mais complexo, pois não precisamos nos preocupar apenas com os dados de treinamento iniciais. Também nos preocupamos com cada vez que o modelo é consultado. E se alimentarmos o modelo com informações confidenciais durante a conversa? Podemos identificar a sensibilidade e evitar que o modelo use isso em outros contextos?
Em certa medida, a sensibilidade dos dados de treinamento determina a sensibilidade do modelo. Embora tenhamos mecanismos bem estabelecidos para controlar o acesso aos dados, monitorar quem está acessando quais dados e mascarar dinamicamente os dados com base na situação, a segurança da implementação da IA ainda está em desenvolvimento. Embora existam soluções surgindo nesse espaço, ainda não conseguimos controlar totalmente a sensibilidade da saída do modelo com base na função de quem usa o modelo (por exemplo, o modelo que identifica que uma determinada saída pode ser sensível e, em seguida, altera de forma confiável a saída com base em quem está consultando o LLM). Por causa disso, esses modelos podem facilmente se tornar vazamentos para qualquer tipo de informação sensível envolvida no treinamento do modelo.
O que acontece quando treinamos um modelo em cada música de Drake e depois o modelo começa a gerar imitações de Drake? O modelo está infringindo os direitos autorais de Drake? Você pode provar se o modelo está de alguma forma copiando seu trabalho?
Esse problema ainda está sendo resolvido pelos órgãos reguladores, mas pode facilmente se tornar uma questão importante para qualquer forma de IA generativa que aprenda com a propriedade intelectual artística. Esperamos que isso leve a grandes processos judiciais no futuro, e isso terá que ser mitigado por meio do monitoramento adequado do IP de qualquer dado usado no treinamento.
Uma das ideias-chave por trás da moderna regulamentação da privacidade de dados é o consentimento. Os clientes devem autorizar o uso de seus dados e devem poder solicitar que seus dados sejam excluídos. Isso representa um problema único para o uso de IA.
Se você treinar um modelo de IA em dados confidenciais de clientes, esse modelo se tornará uma possível fonte de exposição para esses dados confidenciais. Se um cliente fosse revogar o uso que a empresa tem de seus dados (uma exigência do GDPR) e essa empresa já tivesse treinado um modelo com os dados, o modelo precisaria basicamente ser desativado e retreinado sem acesso aos dados revogados.
Tornar os LLMs úteis como software empresarial requer controlar os dados de treinamento para que as empresas possam confiar na segurança dos dados e ter uma trilha de auditoria para o consumo dos dados pelo LLM.
O melhor detalhamento da arquitetura do LLM que já vi está neste artigo de a16z. Está muito bem feito, mas como alguém que passa todo o meu tempo trabalhando em gestão de dados e privacidade, está faltando alguma coisa na seção superior esquerda de “dados contextuais → pipelines de dados”: gestão de dados.
Se você adicionar as soluções de gestão de dados da IBM, o canto superior esquerdo ficará um pouco mais parecido com isto:
A solução de gestão de dados com base no IBM Knowledge Catalog oferece vários recursos para ajudar a facilitar a descoberta de dados, a qualidade de dados automatizada e a proteção dos dados. Você pode:
A última etapa acima é aquela que é frequentemente negligenciada: a implementação da Técnica de Aprimoramento de Privacidade. Como removemos o material sensível antes de alimentá-lo com a IA? Você pode dividir isso em três etapas:
Com o IBM watsonx, a IBM fez rápidos avanços para colocar o poder da IA generativa nas mãos dos "construtores de IA". O IBM watsonx.ai é um estúdio pronto para empresas que reúne recursos tradicionais de aprendizado de máquina (ML) e novos recursos de IA generativa baseados em modelo de base. O Watsonx também inclui o watsonx.data, um armazenamento de dados adequado à finalidade, criado em uma arquitetura de lago aberta. É suportado por formatos de consulta, governança e dados abertos para acessar e compartilhar dados em toda a nuvem híbrida.
Uma base de dados sólida é crítica para o sucesso das implementações de IA. Com IBM malha de dados, os clientes podem criar a infraestrutura de dados certa para IA usando recursos de integração de dados e gestão de dados para adquirir, preparar e organizar dados antes que possam ser facilmente acessados pelos construtores de IA usando watsonx.ai e watsonx.data.
A IBM oferece uma solução compsta de malha de dados como parte de um portfólio aberto e extensível de produtos de IA que podem ser implementados em nuvens de terceiros. Esta solução inclui recursos de gestão de dados, integração de dados, observabilidade de dados, linhagem de dados, qualidade de dados, resolução de entidades e gerenciamento de privacidade de dados.
Os modelos de IA, especialmente os LLMs, serão uma das tecnologias mais transformadoras da próxima década. Como as novas regulamentações sobre IA impondo diretrizes sobre o uso da IA, é crítico não apenas gerenciar e controlar os modelos de IA, mas, igualmente importante, governar os dados inseridos na IA.
