Em muitos cenários do mundo real, a precisão e a capacidade de um modelo de inteligência artificial não são, por si só, suficientes para tornar o modelo útil: ele também deve caber no orçamento de tempo disponível, memória, dinheiro e recursos computacionais.
Os modelos de melhor desempenho para uma determinada tarefa costumam ser muito grandes, lentos ou caros para a maioria dos casos de uso prático, mas muitas vezes têm qualidades únicas que emergem de uma combinação de seu tamanho e de sua capacidade de pré-treinamento em uma enorme quantidade de dados de treinamento. Essas habilidades emergentes são especialmente evidentes em modelos de linguagem autorregressivos, como o GPT ou Llama, que apresentam recursos além do seu objetivo explícito de treinamento de simplesmente prever a próxima palavra em uma sequência. Por outro lado, modelos pequenos são mais rápidos e menos exigentes em termos de computação, mas não têm a precisão, o refinamento e a capacidade de conhecimento de um modelo grande com muito mais parâmetros.
No artigo seminal de 2015, "Distilling the Knowledge in a Neural Network", Hinton et al propuseram contornar essas limitações dividindo o treinamento em dois estágios distintos com propósitos distintos. Os autores apresentaram uma analogia: enquanto muitos insetos têm uma forma larval otimizada para extrair energia e nutrientes do ambiente e uma forma adulta totalmente diferente otimizada para viagens e reprodução, o deep learning convencional usa os mesmos modelos para os estágios de treinamento e implementação, apesar de suas diferentes exigências.
Inspirando-se na natureza e no trabalho de Caruana et al, Hinton et al sugeriram que treinar modelos grandes e pesados vale a pena se essa for a melhor maneira de extrair a estrutura dos dados – mas introduziram um tipo diferente de treinamento, a destilação, para transferir esse conhecimento para um modelo pequeno mais adequado à implementação em tempo real.2
As técnicas de destilação de conhecimento visam não apenas replicar as saídas dos modelos professores, mas emular seus "processos de pensamento". Na era dos LLMs, a destilação de conhecimento permitiu a transferência de qualidades abstratas como estilo, habilidades de raciocínio e alinhamento às preferências e valores humanos.3
Além disso, modelos menores são fundamentalmente mais explicáveis: em um modelo com centenas de bilhões de parâmetros, é difícil interpretar as contribuições de diferentes partes da rede neural. A transferência de representações aprendidas por grandes modelos de "caixa-preta" para modelos mais simples pode ajudar a elucidar insights transformadores em campos como diagnóstico médico e descoberta molecular.4