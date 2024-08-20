Enquanto a inteligência artificial remodela setores em todo o mundo, os desenvolvedores enfrentam um desafio inesperado: a escassez de dados do mundo real de alta qualidade para treinar seus modelos cada vez mais sofisticados. Agora, uma solução potencial está surgindo de uma fonte improvável — dados que não existem na realidade.
Os dados sintéticos, informações geradas artificialmente e projetadas para imitar cenários do mundo real, estão ganhando força rapidamente no desenvolvimento da IA. Ela promete superar gargalos de dados, lidar com preocupações com privacidade e reduzir custos. No entanto, à medida que o campo evolui, questões sobre suas limitações e impacto no mundo real estão vindo à tona.
Os gigantes da tecnologia estão apostando alto nos dados sintéticos. A NVIDIA anunciou recentemente o Nemotron-4 340B, uma família de modelos abertos projetados para gerar dados sintéticos para treinar grandes modelos de linguagem (LLMs) em vários setores. Essa migração lida com um desafio crítico no desenvolvimento da IA: o custo proibitivamente alto e a dificuldade de acessar conjuntos de dados robustos.
“Dados de treinamento de alta qualidade desempenham um papel crítico no desempenho, na precisão e na qualidade das respostas de um LLM personalizado”,escreveu a NVIDIA em seu blog. A família Nemotron-4 340B inclui modelos de base, instrução e recompensa que formam um pipeline para gerar e refinar dados sintéticos, potencialmente acelerando o desenvolvimento de LLMs poderosos e específicos de domínio.
O pesquisador da IBM Akash Srivastava explica que, no contexto de grandes modelos de linguagem, os dados sintéticos geralmente são gerados por um modelo de IA para treinar ou personalizar outro. "Pesquisadores e desenvolvedores do setor estão usando esses modelos para gerar dados para tarefas específicas", observa Srivastava.
Investigadores do MIT-IBM Watson AI Lab e do IBM Research introduziram recentemente uma nova abordagem para melhorar os LLMs usando dados sintéticos. O método, chamado LAB (Large-scale Alignment for chatBots), visa reduzir a dependência de anotações humanas e modelos de IA proprietários como o GPT-4.
O LAB emprega um processo de geração de dados sintéticos guiado por taxonomia e um framework em várias fases. Os pesquisadores relatam: "modelos treinados por LAB podem alcançar desempenho competitivo em vários benchmarks em comparação com modelos treinados com dados sintéticos tradicionais anotados por humanos ou gerados pelo GPT-4."
Para demonstrar a eficácia do LAB, a equipe criou dois modelos, LABRDORITE-13B e MERLINITE-7B, que supostamente superaram o desempenho de outras versões ajustadas dos mesmos modelos de base em várias métricas importantes. Os pesquisadores usaram o modelo Mixtral de código aberto para gerar dados de treinamento sintéticos, oferecendo uma abordagem potencialmente mais econômica para aprimorar os LLMs.
A qualidade dos dados sintéticos é crucial para a sua eficácia. Raul Salles de Padua, Diretor de Engenharia, IA e Computação Quântica na Multiverse Computing, explica: "A fidelidade dos dados sintéticos é calculada comparando-os com dados do mundo real por meio de testes estatísticos e analíticos. Isso inclui uma avaliação de quão bem os dados sintéticos preservam propriedades estatísticas importantes, como médias, variâncias e correlações entre variáveis."
Apesar de sua promessa, os dados sintéticos não estão isentos de desafios. De Padua aponta: "O desafio com os dados sintéticos está em criar dados que sejam úteis e que preservem a privacidade. Sem a implementação dessas proteções, os dados sintéticos podem revelar detalhes pessoais, podendo levar ao roubo de identidade, discriminação ou outras violações de privacidade."
Pesquisas recentes revelaram possíveis armadilhas ao confiar demais em dados sintéticos. Um estudo recente publicado na Nature revelou um fenômeno chamado "colapso do modelo". Quando os modelos de IA são treinados repetidamente com texto gerado por IA, suas saídas podem se tornar cada vez mais sem sentido, levantando preocupações sobre a viabilidade do uso de dados sintéticos a longo prazo, especialmente à medida que o conteúdo gerado por IA se torna mais predominante online.
Considerações éticas também são importantes. De Padua alerta para o "risco dos dados sintéticos não representarem com precisão a diversidade da população do mundo real, produzindo potencial viés em modelos que não conseguem ter um desempenho equitativo em diferentes grupos demográficos."
Em aplicações críticas, como saúde e veículos autônomos, os dados sintéticos podem desempenhar um papel vital. De Padua observa: "Na área da saúde, os dados sintéticos podem complementar conjuntos de dados reais, fornecendo uma gama mais ampla de cenários para modelos de treinamento, levando a melhores recursos diagnósticos e preditivos." Para veículos autônomos, ele acrescenta: “Utilizando dados sintéticos para ampliação, os modelos podem ser expostos a uma gama mais ampla de condições e edge cases que podem não estar presentes no conjunto de dados original”.
Em busca do futuro, de Padua acredita que os dados sintéticos provavelmente complementarão, em vez de substituir, os dados do mundo real no treinamento da IA. "A precisão e a representatividade dos dados sintéticos são cruciais. Os avanços tecnológicos nos algoritmos de geração de dados desempenharão um papel significativo no aumento da confiabilidade dos dados sintéticos", explica ele.
À medida que a IA se integra cada vez mais às nossas vidas cotidianas, desde diagnósticos de saúde até carros autônomos, o equilíbrio entre dados sintéticos e do mundo real no treinamento de IA será crucial. O desafio para os desenvolvedores de IA daqui para frente será aproveitar os benefícios dos dados sintéticos e, ao mesmo tempo, mitigar seus riscos.
“Estamos em um momento crítico no desenvolvimento da IA”, afirma Srivastava. “Encontrar o equilíbrio entre dados sintéticos e do mundo real determinará o futuro da IA, seus recursos, limitações e, em última análise, seu impacto na sociedade.”
