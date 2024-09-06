Os componentes de código aberto desempenham um papel crítico na cadeia de suprimentos da IA. Somente as maiores empresas têm acesso às grandes quantidades de dados necessários para treinar um modelo do zero, portanto, elas dependem fortemente de conjuntos de dados de código aberto, como o LAION 5B ou o Common Corpus. O tamanho desses conjuntos de dados também significa que é extremamente difícil manter a qualidade de dados e a conformidade com as leis de direitos autorais e privacidade. Em contrapartida, muitos modelos convencionais de IA generativa como o ChatGPT são caixas-pretas, pois utilizam seus próprios conjuntos de dados selecionados. Isso vem com seu próprio conjunto de desafios de segurança.

Modelos verticalizados e proprietários podem refinar modelos de base de código aberto com treinamento adicional usando seus próprios conjuntos de dados. Por exemplo, uma empresa que desenvolve um chatbot para atendimento ao cliente de última geração pode usar seus registros anteriores de comunicação com clientes para criar um modelo adaptado às suas necessidades específicas. Esses dados há muito tempo são alvo de cibercriminosos, mas a ascensão meteórica da IA generativa os tornou ainda mais atraentes para agentes mal intencionados.

Ao direcionar esses conjuntos de dados, os cibercriminosos podem envenená-los com desinformação ou códigos e dados maliciosos. Então, quando essas informações comprometidas entram no processo de treinamento do modelo de IA, começamos a ver um efeito cascata abrangendo todo o ciclo de vida do software de IA. Pode levar milhares de horas e uma grande quantidade de Power para treinar grandes modelos de linguagem (LLM). É um empreendimento extremamente caro, tanto financeiramente quanto ambientalmente. No entanto, se os conjuntos de dados usados no treinamento tiverem sido comprometidos, é provável que todo o processo tenha que começar do zero.