En muchos entornos del mundo real, la precisión y la capacidad de un modelo de inteligencia artificial no son, por sí mismas, suficientes para que el modelo sea útil: también debe ajustarse al presupuesto disponible de tiempo, memoria, dinero y recursos computacionales.
Los modelos de mejor rendimiento para una tarea determinada suelen ser demasiado grandes, lentos o costosos para la mayoría de los casos de uso prácticos, pero a menudo tienen cualidades únicas que surgen de una combinación de su tamaño y su capacidad para el entrenamiento previo en una cantidad masiva de datos de entrenamiento. Estas habilidades emergentes son especialmente evidentes en los modelos de lenguaje autorregresivos, como GPT o Llama, que exhiben capacidades más allá de su objetivo de entrenamiento explícito de simplemente predecir la siguiente palabra en una secuencia. Por el contrario, los modelos pequeños son más rápidos y menos exigentes en términos de computación, pero carecen de la precisión, el refinamiento y la capacidad de conocimiento de un modelo grande con muchos más parámetros.
En el artículo seminal de 2015, “Destilar el conocimiento en una red neuronal”, Hinton et al propusieron sortear estas limitaciones dividiendo el entrenamiento en dos etapas distintas con propósitos distintos. Los autores presentaron una analogía: mientras que muchos insectos tienen una forma larvaria optimizada para extraer energía y nutrientes del medio ambiente y una forma adulta totalmente diferente optimizada para viajar y reproducir, el aprendizaje profundo convencional emplea los mismos modelos tanto para las etapas de entrenamiento como de despliegue, a pesar de sus diferentes requisitos.
Inspirar tanto en la naturaleza como en el trabajo de Caruana et al, Hinton et al sugirieron que vale la pena capacitar modelos grandes y engorrosos si hacerlo es la mejor manera de extraer estructura de los datos, pero introdujeron un tipo diferente de entrenamiento, la destilación, para transferir ese conocimiento a un modelo pequeño más adecuado para el despliegue en tiempo real.2
Las técnicas de destilación de conocimientos tienen como objetivo no solo replicar los resultados de los modelos docentes, sino también emular sus "procesos de pensamiento". En la era de los LLM, la KD permitió la transferencia de cualidades abstractas como el estilo, las habilidades de razonamiento y la alineación con las preferencias y valores humanos.3
Además, los modelos más pequeños son fundamentalmente más explicables: en un modelo con cientos de miles de millones de parámetros, es difícil interpretar las contribuciones de diferentes partes de la red neural. Transferir las representaciones aprendidas por grandes modelos de "caja negra" a modelos más simples puede ayudar a aclarar información transformadora en áreas como el diagnóstico médico y el descubrimiento molecular.4