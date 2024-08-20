Os gigantes da tecnologia estão apostando alto nos dados sintéticos. A NVIDIA anunciou recentemente o Nemotron-4 340B, uma família de modelos abertos projetados para gerar dados sintéticos para treinar grandes modelos de linguagem (LLMs) em vários setores. Essa migração lida com um desafio crítico no desenvolvimento da IA: o custo proibitivamente alto e a dificuldade de acessar conjuntos de dados robustos.

“Dados de treinamento de alta qualidade desempenham um papel crítico no desempenho, na precisão e na qualidade das respostas de um LLM personalizado”,escreveu a NVIDIA em seu blog. A família Nemotron-4 340B inclui modelos de base, instrução e recompensa que formam um pipeline para gerar e refinar dados sintéticos, potencialmente acelerando o desenvolvimento de LLMs poderosos e específicos de domínio.

O pesquisador da IBM Akash Srivastava explica que, no contexto de grandes modelos de linguagem, os dados sintéticos geralmente são gerados por um modelo de IA para treinar ou personalizar outro. "Pesquisadores e desenvolvedores do setor estão usando esses modelos para gerar dados para tarefas específicas", observa Srivastava.

Investigadores do MIT-IBM Watson AI Lab e do IBM Research introduziram recentemente uma nova abordagem para melhorar os LLMs usando dados sintéticos. O método, chamado LAB (Large-scale Alignment for chatBots), visa reduzir a dependência de anotações humanas e modelos de IA proprietários como o GPT-4.

O LAB emprega um processo de geração de dados sintéticos guiado por taxonomia e um framework em várias fases. Os pesquisadores relatam: "modelos treinados por LAB podem alcançar desempenho competitivo em vários benchmarks em comparação com modelos treinados com dados sintéticos tradicionais anotados por humanos ou gerados pelo GPT-4."

Para demonstrar a eficácia do LAB, a equipe criou dois modelos, LABRDORITE-13B e MERLINITE-7B, que supostamente superaram o desempenho de outras versões ajustadas dos mesmos modelos de base em várias métricas importantes. Os pesquisadores usaram o modelo Mixtral de código aberto para gerar dados de treinamento sintéticos, oferecendo uma abordagem potencialmente mais econômica para aprimorar os LLMs.

A qualidade dos dados sintéticos é crucial para a sua eficácia. Raul Salles de Padua, Diretor de Engenharia, IA e Computação Quântica na Multiverse Computing, explica: "A fidelidade dos dados sintéticos é calculada comparando-os com dados do mundo real por meio de testes estatísticos e analíticos. Isso inclui uma avaliação de quão bem os dados sintéticos preservam propriedades estatísticas importantes, como médias, variâncias e correlações entre variáveis."

Apesar de sua promessa, os dados sintéticos não estão isentos de desafios. De Padua aponta: "O desafio com os dados sintéticos está em criar dados que sejam úteis e que preservem a privacidade. Sem a implementação dessas proteções, os dados sintéticos podem revelar detalhes pessoais, podendo levar ao roubo de identidade, discriminação ou outras violações de privacidade."

Pesquisas recentes revelaram possíveis armadilhas ao confiar demais em dados sintéticos. Um estudo recente publicado na Nature revelou um fenômeno chamado "colapso do modelo". Quando os modelos de IA são treinados repetidamente com texto gerado por IA, suas saídas podem se tornar cada vez mais sem sentido, levantando preocupações sobre a viabilidade do uso de dados sintéticos a longo prazo, especialmente à medida que o conteúdo gerado por IA se torna mais predominante online.

Considerações éticas também são importantes. De Padua alerta para o "risco dos dados sintéticos não representarem com precisão a diversidade da população do mundo real, produzindo potencial viés em modelos que não conseguem ter um desempenho equitativo em diferentes grupos demográficos."