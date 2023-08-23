Grandes modelos de linguagem podem ser treinados com dados proprietários para atender a casos de uso empresariais específicos. Por exemplo, uma empresa pode pegar o ChatGPT e criar um modelo privado treinado com os dados de vendas de CRM da empresa. Este modelo pode ser implementado como um chatbot do Slack para ajudar as equipes de vendas a encontrar respostas para perguntas como “Quantas oportunidades o produto X ganhou no último ano?” ou "Atualize-me sobre a oportunidade do produto Z com a empresa Y".

Você pode facilmente imaginar esses LLMs sendo ajustados para inúmeros casos de uso de atendimento ao cliente, RH ou marketing. Podemos até mesmo ver esses conselhos jurídicos e médicos aumentando, transformando LLMs em uma ferramenta de diagnóstico de primeira linha usada por prestadores de serviços de saúde. O problema é que esses casos de uso exigem o treinamento de LLMs em dados proprietários confidenciais. Isso é inerentemente arriscado. Alguns desses riscos são:

1. Risco de privacidade e reidentificação

Os modelos de IA aprendem com dados de treinamento; mas, e se esses dados forem privados ou confidenciais? Uma quantidade considerável de dados pode ser usada direta ou indiretamente para identificar indivíduos específicos. Portanto, se estivermos treinando um LLM com dados proprietários dos clientes de uma empresa, podemos nos deparar com situações em que o consumo desse modelo pode ser usado para o vazamento de informações confidenciais.

2. Dados de aprendizado no modelo

Muitos modelos de IA simples têm uma fase de treinamento e depois uma fase de implementação durante a qual o treinamento é pausado. Os LLMs são um pouco diferentes. Eles levam o contexto da sua conversa, aprendem com isso e respondem de acordo.

Isso torna o trabalho de controlar os dados de entrada do modelo infinitamente mais complexo, pois não precisamos nos preocupar apenas com os dados de treinamento iniciais. Também nos preocupamos com cada vez que o modelo é consultado. E se alimentarmos o modelo com informações confidenciais durante a conversa? Podemos identificar a sensibilidade e evitar que o modelo use isso em outros contextos?

3. Risco de segurança e acesso

Em certa medida, a sensibilidade dos dados de treinamento determina a sensibilidade do modelo. Embora tenhamos mecanismos bem estabelecidos para controlar o acesso aos dados, monitorar quem está acessando quais dados e mascarar dinamicamente os dados com base na situação, a segurança da implementação da IA ainda está em desenvolvimento. Embora existam soluções surgindo nesse espaço, ainda não conseguimos controlar totalmente a sensibilidade da saída do modelo com base na função de quem usa o modelo (por exemplo, o modelo que identifica que uma determinada saída pode ser sensível e, em seguida, altera de forma confiável a saída com base em quem está consultando o LLM). Por causa disso, esses modelos podem facilmente se tornar vazamentos para qualquer tipo de informação sensível envolvida no treinamento do modelo.

4. Risco de propriedade intelectual

O que acontece quando treinamos um modelo em cada música de Drake e depois o modelo começa a gerar imitações de Drake? O modelo está infringindo os direitos autorais de Drake? Você pode provar se o modelo está de alguma forma copiando seu trabalho?

Esse problema ainda está sendo resolvido pelos órgãos reguladores, mas pode facilmente se tornar uma questão importante para qualquer forma de IA generativa que aprenda com a propriedade intelectual artística. Esperamos que isso leve a grandes processos judiciais no futuro, e isso terá que ser mitigado por meio do monitoramento adequado do IP de qualquer dado usado no treinamento.

5. Consentimento e risco de DSAR

Uma das ideias-chave por trás da moderna regulamentação da privacidade de dados é o consentimento. Os clientes devem autorizar o uso de seus dados e devem poder solicitar que seus dados sejam excluídos. Isso representa um problema único para o uso de IA.

Se você treinar um modelo de IA em dados confidenciais de clientes, esse modelo se tornará uma possível fonte de exposição para esses dados confidenciais. Se um cliente fosse revogar o uso que a empresa tem de seus dados (uma exigência do GDPR) e essa empresa já tivesse treinado um modelo com os dados, o modelo precisaria basicamente ser desativado e retreinado sem acesso aos dados revogados.

Tornar os LLMs úteis como software empresarial requer controlar os dados de treinamento para que as empresas possam confiar na segurança dos dados e ter uma trilha de auditoria para o consumo dos dados pelo LLM.