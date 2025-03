Em muitos cenários do mundo real, a precisão e a capacidade de um modelo de inteligência artificial não são, por si só, suficientes para tornar o modelo útil: ele também deve caber no orçamento de tempo disponível, memória, dinheiro e recursos computacionais.

Os modelos de melhor desempenho para uma determinada tarefa costumam ser muito grandes, lentos ou caros para a maioria dos casos de uso prático, mas muitas vezes têm qualidades únicas que emergem de uma combinação de seu tamanho e de sua capacidade de pré-treinamento em uma enorme quantidade de dados de treinamento. Essas habilidades emergentes são especialmente evidentes em modelos de linguagem autorregressivos, como GPT ou Llama, que apresentam recursos além do seu objetivo explícito de treinamento de simplesmente prever a próxima palavra em uma sequência. Por outro lado, modelos pequenos são mais rápidos e menos exigentes em termos de computação, mas não têm a precisão, o refinamento e a capacidade de conhecimento de um modelo grande com muito mais parâmetros.

No artigo seminal de 2015, "Distilling the Knowledge in a Neural Network", Hinton et al propuseram contornar essas limitações dividindo o treinamento em dois estágios distintos com propósitos distintos. Os autores apresentaram uma analogia: enquanto muitos insetos têm uma forma larval otimizada para extrair energia e nutrientes do ambiente e uma forma adulta totalmente diferente otimizada para viagens e reprodução, o deep learning convencional usa os mesmos modelos para os estágios de treinamento e implementação, apesar de suas diferentes exigências.

Inspirando-se na natureza e no trabalho de Caruana et al, Hinton et al sugeriram que treinar modelos grandes e pesados vale a pena se essa for a melhor maneira de extrair a estrutura dos dados – mas introduziram um tipo diferente de treinamento, a destilação, para transferir esse conhecimento para um modelo pequeno mais adequado à implementação em tempo real.2

As técnicas de destilação de conhecimento visam não apenas replicar as saídas dos modelos professores, mas emular seus "processos de pensamento". Na era dos LLMs, a destilação de conhecimento permitiu a transferência de qualidades abstratas como estilo, habilidades de raciocínio e alinhamento às preferências e valores humanos.3

Além disso, modelos menores são fundamentalmente mais explicáveis: em um modelo com centenas de bilhões de parâmetros, é difícil interpretar as contribuições de diferentes partes da rede neural. A transferência de representações aprendidas por grandes modelos de "caixa-preta" para modelos mais simples pode ajudar a elucidar insights transformadores em campos como diagnóstico médico e descoberta molecular.4