Inicio

Temas

Destilación de conocimientos

qué es la destilación del conocimiento
Explore la plataforma de IA de IBM Suscríbase para recibir actualizaciones sobre IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos

Publicado: 12 de enero de 2023
Colaboradores: Dave Bergmann

qué es la destilación del conocimiento

La destilación de conocimientos es una técnica de aprendizaje automático que tiene como objetivo transferir los aprendizajes de un gran modelo previamente capacitado, el "modelo de profesor", a un "modelo de estudiante" más pequeño. Se emplea en el aprendizaje profundo como una forma de compresión de modelos y transferencia de conocimiento, particularmente para redes neuronales profundas masivas.

El objetivo de la destilación del conocimiento es capacitar un modelo más compacto para imitar un modelo más grande y complejo. Mientras que el objetivo del aprendizaje profundo convencional es capacitar una red neuronal artificial para acercar sus predicciones a los ejemplos de salida proporcionados en un conjunto de datos de entrenamiento, el objetivo principal de la destilación de conocimientos es capacitar a la red de estudiantes para que coincida con las predicciones realizadas por la red de profesores.

La destilación del conocimiento (KD) se aplica con mayor frecuencia a grandes redes neuronales profundas con muchas capas y parámetros aprendibles. Este proceso lo hace especialmente pertinente para la actual proliferación de modelos generativos masivos de IA con miles de millones de parámetros.

El concepto tiene su origen en un documento de 2006 titulado “Compresión del modelo”. Caruana et al emplearon lo que era un modelo de clasificación de última generación en ese momento, un enorme modelo de conjunto compuesto por cientos de clasificadores de nivel base, para etiquetar un gran conjunto de datos, y luego capacitaron una única red neuronal en ese nuevo conjunto de datos etiquetados a través del aprendizaje monitorear convencional. Este modelo compacto, "mil veces más pequeño y más rápido", coincidió con el rendimiento del conjunto.1

Desde entonces, las técnicas de destilación de conocimiento se emplearon con éxito en diversos campos, incluido el procesamiento de lenguaje natural (PLN), el reconocimiento de voz, el reconocimiento de imágenes y la detección de objetos. En los últimos años, el estudio de la destilación del conocimiento fue de particular importancia para los modelos de lenguaje de gran tamaño (LLM). Para los LLM, KD se convirtió en un medio eficaz para transferir capacidades avanzadas de los principales modelos patentados a modelos de código abierto más pequeños y accesibles.

IA generativa y aprendizaje automático para la empresa

Este libro electrónico describe los beneficios clave de la adopción de la IA generativa en toda la empresa y cómo las organizaciones pueden incorporar con confianza modelos de base y aprendizaje automático en sus operaciones empresariales.

Contenido relacionado Regístrese para obtener la guía sobre modelos fundacionales
¿Por qué es importante la destilación del conocimiento?

En muchos entornos del mundo real, la precisión y la capacidad de un modelo de inteligencia artificialno son, por sí mismas, suficientes para que el modelo sea útil: también debe ajustar a la cotización disponible de tiempo, memoria, dinero y recursos computacionales.

Los modelos de mejor rendimiento para una tarea determinada suelen ser demasiado grandes, lentos o costosos para la mayoría de los casos de uso prácticos, pero a menudo tienen cualidades únicas que surgen de una combinación de su tamaño y su capacidad para el entrenamiento previo en una cantidad masiva de datos de entrenamiento. Estas habilidades emergentes son especialmente evidentes en modelos de lenguaje autorregresivos, como GPT o Llama, que exhiben capacidades más allá de su objetivo de entrenamiento explícito de simplemente predecir la siguiente palabra en una secuencia. Por el contrario, los modelos pequeños son más rápidos y menos exigentes desde el punto de vista computacional, pero carecen de la precisión, el refinamiento y la capacidad de conocimiento de un modelo grande con muchos más parámetros.  

En el artículo seminal de 2015, “Destilar el conocimiento en una red neuronal”, Hinton et al propusieron sortear estas limitaciones dividiendo el entrenamiento en dos etapas distintas con propósitos distintos. Los autores presentaron una analogía: mientras que muchos insectos tienen una forma larvaria optimizada para extraer energía y nutrientes del medio ambiente y una forma adulta totalmente diferente optimizada para viajar y reproducir, el aprendizaje profundo convencional emplea los mismos modelos tanto para las etapas de entrenamiento como de despliegue, a pesar de sus diferentes requisitos.

Inspirar tanto en la naturaleza como en el trabajo de Caruana et al, Hinton et al sugirieron que vale la pena capacitar modelos grandes y engorrosos si hacerlo es la mejor manera de extraer estructura de los datos, pero introdujeron un tipo diferente de entrenamiento, la destilación, para transferir ese conocimiento a un modelo pequeño más adecuado para el despliegue en tiempo real.2

Las técnicas de destilación de conocimientos tienen como objetivo no solo replicar los resultados de los modelos docentes, sino también emular sus "procesos de pensamiento". En la era de los LLM, KD permitió la transferencia de cualidades abstractas como el estilo, la capacidad de razonamiento y la alineación con las preferencias y valores humanos.3

Además, los modelos más pequeños son fundamentalmente más explicables: en un modelo con cientos de miles de millones de parámetros, es difícil interpretar las contribuciones de diferentes partes de la red neural. Transferir las representaciones aprendidas por grandes modelos de "caja negra" a modelos más simples puede ayudar a dilucidar información transformadora en campos como el diagnóstico médico y el descubrimiento molecular.4

¿Cómo funciona la destilación del conocimiento?

La destilación del conocimiento (KD) no depende de ninguna arquitectura de red neuronal específica, ni siquiera requiere que la red de profesores y la red de estudiantes tengan las mismas arquitecturas: se puede aplicar a cualquier modelo de aprendizaje profundo.

KD aprovecha el hecho de que las redes neuronales artificiales son "aproximadores universales": dados suficientes datos de capacitación y una capa lo suficientemente grande oculta, una red neural puede aproximar cualquier función a la precisión arbitraria.5

En el aprendizaje automático convencional, el "conocimiento" de un modelo capacitado se identifica con sus parámetros aprendidos: los pesos (y sesgos) variables, aplicados a las distintas operaciones matemáticas que se producen en la red neuronal, que amplifican o disminuyen la influencia que una determinada parte de la salida de la red tiene sobre otra. Esta visión del conocimiento hace difícil ver cómo un modelo puede absorber los conocimientos de otro modelo de tamaño y estructura diferentes.

En cambio, Hinton et al aplicaron una visión más abstracta y flexible del conocimiento como simplemente "un mapeo aprendido de vectores de entrada a vectores de salida". En otras palabras, KD interpreta el conocimiento de un modelo no como los parámetros estrictamente matemáticos que aprende en el entrenamiento, sino como generaliza a nuevos datos luego de ese entrenamiento.

A través de esta comprensión alternativa del conocimiento, los métodos de destilación del conocimiento tienen como objetivo capacitar a los modelos de los estudiantes para que imiten no solo el resultado final del modelo del maestro para una entrada dada, sino también los pasos de razonamiento que toma el modelo del maestro para llegar a ese resultado final. Conceptualmente, esto funciona de manera similar a ajuste de la instrucción a través de instrucciones de cadena de pensamiento (CoT), que mejora la calidad de las respuestas de los LLM mostrándoles a articular su lógica "paso a paso".

En el aprendizaje convencional monitorear o autosupervisado , una función de pérdida produce un vector que representa la divergencia (o pérdida) entre las salidas del modelo y las salidas "correctas" (o verdad fundamental) en diferentes entradas. Al ajustar los parámetros del modelo para minimizar la pendiente (o gradiente) de este vector a través de un algoritmo de optimización como el descenso de gradiente, los resultados del modelo se acercan más a los resultados correctos. Si bien los pasos de razonamiento del modelo son “importantes” porque influyen en su resultado final, normalmente no se miden mediante una función de pérdida convencional.

La destilación del conocimiento, por el contrario, también capacita al modelo del estudiante para imitar el proceso de razonamiento del modelo del profesor mediante la adición de un tipo especializado de función de pérdida, la pérdida de destilación, que emplea pasos de razonamiento discretos como objetivos blandos para la optimización.

Objetivos blandos

El resultado de cualquier modelo de IA puede entender como predicciones: un LLM autorregresivo predice las siguientes palabras en una secuencia específica; un modelo de visión artificial empleado para la clasificación de imágenes predice la categoría de una determinada imagen. Para llegar a estas predicciones finales, denominadas "objetivos duros" en este contexto, los modelos de aprendizaje profundo suelen hacer múltiples predicciones preliminares y emplean un función softmax para generar la predicción con la mayor probabilidad. Durante el entrenamiento, se emplea una función de pérdida de entropía cruzada para maximizar la probabilidad asignada a la salida correcta y minimizar la probabilidad asignada a las salidas incorrectas.

Por ejemplo, un modelo de clasificación de imágenes predice la probabilidad de que una imagen de entrada pertenezca a cada clase conocida que el modelo está capacitado para reconocer y, a continuación, emite la clase con el valor de probabilidad más alto. En el lenguaje matemático del aprendizaje automático, estas predicciones individuales por clases se denominan logits. Del mismo modo, un LLM autorregresivo predice múltiples posibilidades para cada palabra siguiente y (dependiendo de su temperatura setting) muestra una de esas posibilidades para su salida.

En la destilación del conocimiento, estas predicciones intermedias (los “objetivos blandos”) generadas por el modelo docente a menudo proporcionan los principales datos de entrenamiento para el modelo estudiantil. Las probabilidades relativas asignadas a estas predicciones preliminares proporcionan información valiosa sobre cómo tiende a generalizar el modelo del profesor. Por ejemplo, es muchas veces más probable que un modelo de clasificación de imágenes clasifique erróneamente una imagen de un zorro como "perro" que como "sándwich". Por lo tanto, los objetivos blandos proporcionan mucha más información por caso de capacitación que los objetivos duros por sí solos.

Los objetivos blandos también proporcionan más consistencia que los objetivos duros: la predicción final de un modelo podría depender en última instancia de una diferencia minúscula entre dos valores logit, pero los valores logit en sí tienen mucha menos variación en el gradiente entre cada ejemplo de entrenamiento.

Debido a la riqueza y estabilidad de la información proporcionada por los objetivos flexibles, el modelo de estudiante puede capacitar con menos ejemplos de entrenamiento, empleando una tasa de aprendizaje más alta, que la que se empleó para capacitar el modelo de profesor original.

Pérdida por destilación

Para acercar las tendencias de generalización de la red de estudiantes a las de la red de profesores, la destilación del conocimiento suele emplear dos funciones de pérdida. La primera es una función de pérdida estándar que opera con “pérdida dura”, midiendo los resultados finales del modelo del estudiante contra las etiquetas de verdad del terreno (en el aprendizaje monitorear) o contra la muestra de datos original (en el aprendizaje autosupervisado). La segunda es la pérdida por destilación, una “pérdida suave” que mide los objetivos suaves del modelo de estudiante frente a los del maestro.

Debido a que puede haber múltiples objetivos blandos para cada ejemplo de capacitación, la pérdida por destilación mide la diferencia entre la distribución de probabilidad de los objetivos blandos de la red docente y la distribución de probabilidad de los estudiantes. La divergencia de Kullback-Leibler (o “divergencia KL”) se emplea comúnmente para este propósito.

Tipos de conocimiento en la destilación del conocimiento

Si bien los logits son el enfoque típico de la transferencia de conocimientos entre docentes y alumnos, hay varias formas en que el "conocimiento" puede manifestar en una red neuronal profunda. Otros métodos de destilación de conocimiento se centran en pesos y activaciones en las capas ocultas de la red, o en las relaciones entre diferentes partes de la red.

Estas diferentes formas de conocimiento generalmente se dividen en una de tres categorías: conocimiento basado en respuestas, conocimiento basado en características o conocimiento basado en relaciones.

Conocimiento basado en respuestas

El conocimiento basado en respuestas, el género más común de destilación de conocimiento, se centra en la transferencia de información desde la capa de salida final del modelo docente. En un método típico de KD basado en respuestas, el modelo de estudiante se capacita para generar logits que coincidan con las predicciones del modelo de profesor.

Cuando los objetivos blandos del modelo del profesor tienen una entropía baja -en otras palabras, cuando las predicciones son extremadamente "seguras", como si un modelo de clasificación produjera un logit muy cercano a 1 (que representa la seguridad) para una clase y logits cercanos a 0 para todas las demás-, no proporcionan tanta información. Por lo tanto, los métodos basados en la respuesta a menudo utilizan una configuración de alta temperatura para las salidas del modelo, lo que aumenta la entropía de las predicciones del modelo. Esto asegura una distribución de probabilidad más variable y por lo tanto una mayor cantidad de información de cada ejemplo de entrenamiento.

Conocimiento basado en características

El conocimiento basado en características se centra en la información que se transmite en las capas intermedias, o "capas ocultas", de una red neuronal. Aquí es donde las redes neuronales tienden a realizar la extracción de características, la identificación de características y patrones distintos de los datos de entrada que son relevantes para la tarea en cuestión.

Por ejemplo, en las redes neuronales convolucionales empleadas predominantemente para tareas de visión artificial como la segmentación de imágenes, cada capa oculta sucesiva captura detalles progresivamente más ricos a medida que los datos se transmiten a través de la red. En un modelo empleado para clasificar imágenes de animales por especies, las primeras capas ocultas podrían simplemente discernir la presencia de una forma de animal en una parte de la foto; las capas intermedias ocultas podrían discernir que el animal es un pájaro; Las capas ocultas finales, justo antes de la capa de salida, discernirían los detalles matizados que diferencian una especie de ave de otra especie estrechamente relacionada.

El objetivo de los métodos de destilación de conocimiento basados en características es, por lo tanto, capacitar al modelo de estudiante para que aprenda las mismas características que la red de profesores. Las funciones de pérdida de destilación basadas en características se emplean para medir y luego minimizar la diferencia entre las activaciones de características de las dos redes.

Conocimiento basado en relaciones

Mientras que tanto el conocimiento basado en respuestas como el basado en características se centran en los resultados de capas de modelos específicas, la destilación de conocimiento basada en relaciones se centra en las relaciones entre diferentes capas o entre mapas de entidades que representan las activaciones en diferentes capas o ubicaciones.

En esencia, el conocimiento basado en relaciones representa quizás el enfoque integral para capacitar a la red de estudiantes para emular el “proceso de pensamiento” del modelo docente. Estas relaciones y correlaciones se pueden modelar de varias maneras, incluidas correlaciones entre mapas de características, matrices que representan la similitud entre diferentes capas, incorporaciones de características o distribuciones probabilísticas de representaciones de características.

Esquemas de destilación de conocimientos

Los métodos de destilación de conocimientos también pueden clasificar por su impacto en la red de profesores. Mientras que el proceso de destilación propuesto originalmente por Hinton et al y las numerosas evoluciones posteriores de esa metodología tienen como único objetivo capacitar la red del alumno, otros esquemas de destilación también implican la actualización simultánea de los pesos de la red del profesor.

Destilación fuera de línea

En la destilación fuera de línea, la red de profesores ya está previamente capacitada y las ponderaciones de su modelo se congelan para evitar más cambios. La destilación sin conexión es típica de muchos enfoques de KD para LLM, en los que el profesor suele ser un modelo propietario más grande para el que no se pueden cambiar las ponderaciones del modelo.

Destilación en línea

En algunas circunstancias, es posible que no esté disponible un modelo de maestro debidamente capacitado y con un rendimiento adecuado, o un científico de datos podría querer adaptar la red de maestros a su caso de uso específico. Los esquemas de destilación en línea tienen como objetivo capacitar simultáneamente tanto a las redes de maestros como de estudiantes.

Por ejemplo, Cioppa et al propusieron un esquema de destilación en línea para los modelos de segmentación semántica empleados en eventos deportivos en tiempo real, donde las circunstancias visuales pueden cambiar a lo largo de un partido. Su objetivo era eludir el equilibrio entre la velocidad de una red más pequeña y la precisión de una red más grande capacitando continuamente un modelo lento y de buen rendimiento con datos de partidos en tiempo real y, al mismo tiempo, destilando el conocimiento de ese modelo más grande en un modelo más pequeño y más rápido desplegado para generar resultados en tiempo real. .6

Autodestilación

En la autodestilación, una red actúa como maestra y estudiante. Mientras que la destilación de conocimiento convencional implica la transferencia de conocimiento de un modelo a otro, la autodestilación puede entender como la transferencia de conocimiento desde las capas más profundas de una red a las capas superficiales de la misma red.7

En la autodestilación, se agregan múltiples “clasificadores superficiales” basados en la atención a las capas intermedias del modelo a diferentes profundidades. Durante la capacitación, los clasificadores en profundidad actúan como modelos de maestros y guían la capacitación de los otros módulos basados en la atención a través de dos tipos de pérdidas por destilación: una pérdida métrica de divergencia KL en los mapas y una pérdida de regularización L2.

Una vez que el modelo está capacitado y listo para la inferencia, todos estos clasificadores superficiales se eliminan del modelo. Básicamente, esto permite que el modelo sea más grande y tenga mayor capacidad de reconocimiento de patrones durante el entrenamiento, pero luego sea más pequeño y, en consecuencia, más rápido y eficiente cuando se implemente.

Destilación de conocimientos y LLM

Con la llegada de los LLM, la destilación del conocimiento se convirtió en un medio importante para transferir las capacidades avanzadas de modelos grandes, a menudo propietarios, a modelos más pequeños, a menudo de código abierto. Como tal, se ha convertido en una herramienta importante en la democratización de la IA generativa.

Los LLM con las capacidades más altas son, en la mayoría de los casos, demasiado costosos y computacionalmente exigentes para ser accesibles a muchos posibles usuarios como aficionados, startups o instituciones de investigación. Además, a pesar de su desempeño avanzado y capacidades únicas, las LLM patentadas por su naturaleza no pueden adaptarse a aplicaciones de nicho y casos de uso específicos.

Además, la mayoría de los LLM comercialmente viables son demasiado grandes y computacionalmente exigentes para usar localmente en teléfonos móviles u otros dispositivos edge. Esto presenta varias complicaciones logísticas, computacionales y de privacidad que, de otro modo, se evitarían con un modelo más pequeño que podría ejecutar directamente en dispositivos móviles. Por lo tanto, la compresión de modelos de KD presenta un medio prometedor para transferir las cualidades emergentes de modelos grandes a modelos lo suficientemente pequeños como para ejecutarlos en el dispositivo.

Otros usos comunes de la destilación de conocimientos para los LLM incluyen:

Hacer que los LLM sean multilingües, por ejemplo, mediante el uso de múltiples modelos de maestros, cada uno de los cuales se especializa en un idioma separado, para transferir el conocimiento lingüístico a un solo estudiante modelo8 o mediante modelos de cocapacitación en idiomas separados para generar embeciones similares para la misma oración.9

Uso de LLM patentadas más grandes para generar conjuntos de datos para el ajuste de instrucciones de modelos más pequeños. Por ejemplo, el modelo Orca de Microsoft "aprende de señales ricas de GPT-4, incluidas trazas explicativas, procesos de pensamiento paso a paso y otras instrucciones complejas". 10

Uso de un modelo docente para clasificar los resultados de los estudiantes, destilando sus preferencias y ajustes de alineación a través de una variación del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) denominado aprendizaje por refuerzo a partir de la retroalimentación de la IA (RLAIF).11

Soluciones relacionadas
IBM watsonx.ai™

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad, y cree aplicaciones de IA en una fracción del tiempo con un fragmento de los datos.

Explore watsonx.ai

Modelos fundacionales en watsonx.ai

Descubra la biblioteca del estudio watsonx™ AI de modelos básicos rentables y de nivel empresarial desarrollados por IBM, modelos de código abierto y modelos procedentes de proveedores externos, para ayudar a los clientes y socios a escalar y poner en funcionamiento rápidamente la IA generativa con un riesgo mínimo.

Explore la biblioteca de IBM de modelos fundacionales
Recursos de destilación de conocimiento ¿Qué son las redes neuronales?

Obtenga más información sobre las redes neuronales artificiales, la arquitectura de modelo que proporciona la base para el aprendizaje profundo y la IA generativa.

Un análisis comparativo de los métodos de destilación independientes de la tarea para comprimir modelos de lenguaje de transformadores

Lea sobre cómo se aplican los métodos de destilación de conocimientos en el campo de LLMS. Este documento reproduce, compara y analiza varios métodos representativos para la destilación de propósito general de modelos de lenguaje basados en transformadores.

¿Qué es la IA generativa?

Establezca un conocimiento práctico más estable de la IA generativa: el uso de la IA para crear contenido original, como texto, imágenes, video, audio o código de software, en respuesta a la indicación o solicitud de un usuario.

Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

Nota: todos los enlaces son externos a ibm.com

1 "Model compression", Proceedings of the Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 23 de agosto de 2006
2 "Distilling the Knowledge in a Neural Network", arXiv, 9 de marzo de 2015
3 "A Survey on Knowledge Distillation of Large Language Models", arXiv, 8 de marzo de 2024
4 "Improving drug-target affinity prediction via feature fusion and knowledge distillation", Briefings in Bioinformatics, mayo de 2023
5 "A three layer neural network can represent any multivariate function", arXiv, 16 de enero de 2022
6 "ARTHuS: Adaptive Real-Time Human Segmentation in Sports Through Online Distillation", 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019
7 "Self-Distillation: Towards Efficient and Compact Neural Networks", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, no. 8, págs. 4388-4403, 1 de agosto de 2022
8 "Multilingual Neural Machine Translation with Knowledge Distillation", arXiv, 30 de abril de 2019
9 "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation", arXiv, 21 de abril de 2020
10 "Orca: Progressive Learning from Complex Explanation Traces of GPT-4", Hugging Face, 5 de junio de 2023
11 "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback", arXiv, 1 de septiembre de 2023