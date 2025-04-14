Uma vez que os dados para treinar um modelo específico tenham sido selecionados, o próprio modelo está pronto para gerar seus próprios dados com base nos dados de treinamento, um processo conhecido como geração de dados sintéticos. O que distingue a abordagem do InstructLab nessa etapa do treinamento de um LLM é a escala em que ele é feito e a precisão dos dados que ele pode gerar. Confiando no método de Alinhamento em Grande Escala para chatbot (LAB) mais uma vez, a abordagem do InstructLab adiciona uma etapa automatizada, refinando ainda mais as respostas que o LLM gera para garantir sua precisão.

Os novos dados gerados durante essa etapa, críticos para o treinamento de todos os LLMs, não somente do InstructLab, dependem do que é conhecido como um modelo "professor", um modelo maior que gera rótulos e dados para um modelo "aluno" menor e mais eficiente aprender.

Com o método LAB, os LLMs do InstructLab não usam dados armazenados pelo modelo professor, mas sim instruções específicas que aumentam exponencialmente o conjunto de dados, ao mesmo tempo em que garantem que os exemplos gerados pelo modelo "alunos" permaneçam alinhados com a finalidade pretendida dos LLMs.

De acordo com a pesquisa da IBM, essa abordagem “gera sistematicamente dados sintéticos para as tarefas que você deseja que seu chatbot realize e para assimilar novos conhecimentos e recursos no modelo de base, sem substituir o que o modelo já aprendeu.”