qué es la destilación del conocimiento

Autores

Senior Staff Writer, AI Models

IBM Think

qué es la destilación del conocimiento

La destilación de conocimientos es una técnica de machine learning que tiene como objetivo transferir los aprendizajes de un gran modelo previamente entrenado, el "modelo de profesor", a un "modelo de estudiante" más pequeño. Se emplea en el aprendizaje profundo como una forma de compresión de modelos y transferencia de conocimiento, particularmente para redes neuronales profundas masivas.

El objetivo de la destilación del conocimiento es entrenar un modelo más compacto para imitar un modelo más grande y complejo. Mientras que el objetivo del aprendizaje profundo convencional es entrenar una red neuronal artificial para acercar sus predicciones a los ejemplos de salida proporcionados en un conjunto de datos de entrenamiento, el objetivo principal de la destilación de conocimientos es entrenar a la red de estudiantes para que coincida con las predicciones realizadas por la red de profesores.

La destilación del conocimiento (KD) se aplica con mayor frecuencia a grandes neural networks profundas con muchas capas y parámetros de modelo que se pueden aprender. Este proceso lo hace especialmente pertinente para la actual proliferación de modelos generativos masivos de IA con miles de millones de parámetros.

El concepto tiene su origen en un documento de 2006 titulado “Compresión del modelo”. Caruana y colaboradores emplearon lo que era un modelo de clasificación de última generación en ese momento, un enorme modelo de conjunto compuesto por cientos de clasificadores de nivel base, para etiquetar un gran conjunto de datos, y luego entrenaron una única red neuronal en ese nuevo conjunto de datos etiquetados a través del aprendizaje monitorear convencional. Este modelo compacto, "mil veces más pequeño y más rápido", coincidió con el rendimiento del conjunto.¹

Desde entonces, las técnicas de destilación de conocimientos se han empleado con éxito en diversos campos, incluyendo procesamiento de lenguaje natural (PLN), reconocimiento de voz, reconocimiento de imágenes y detección de objetos. En los últimos años, el estudio de la destilación del conocimiento fue de particular importancia para los modelos de lenguaje grandes (LLM). Para los LLM, KD se convirtió en un medio eficaz para transferir capacidades avanzadas de los principales modelos patentados a modelos de código abierto más pequeños y accesibles.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¿Por qué es importante la destilación del conocimiento?

En muchos entornos del mundo real, la precisión y la capacidad de un modelo de inteligencia artificial no son, por sí mismas, suficientes para que el modelo sea útil: también debe ajustarse al presupuesto disponible de tiempo, memoria, dinero y recursos computacionales.

Los modelos de mejor rendimiento para una tarea determinada suelen ser demasiado grandes, lentos o costosos para la mayoría de los casos de uso prácticos, pero a menudo tienen cualidades únicas que surgen de una combinación de su tamaño y su capacidad para el entrenamiento previo en una cantidad masiva de datos de entrenamiento. Estas habilidades emergentes son especialmente evidentes en los modelos de lenguaje autorregresivos, como GPT o Llama, que exhiben capacidades más allá de su objetivo de entrenamiento explícito de simplemente predecir la siguiente palabra en una secuencia. Por el contrario, los modelos pequeños son más rápidos y menos exigentes en términos de computación, pero carecen de la precisión, el refinamiento y la capacidad de conocimiento de un modelo grande con muchos más parámetros.

En el artículo seminal de 2015, “Destilar el conocimiento en una red neuronal”, Hinton et al propusieron sortear estas limitaciones dividiendo el entrenamiento en dos etapas distintas con propósitos distintos. Los autores presentaron una analogía: mientras que muchos insectos tienen una forma larvaria optimizada para extraer energía y nutrientes del medio ambiente y una forma adulta totalmente diferente optimizada para viajar y reproducir, el aprendizaje profundo convencional emplea los mismos modelos tanto para las etapas de entrenamiento como de despliegue, a pesar de sus diferentes requisitos.

Inspirar tanto en la naturaleza como en el trabajo de Caruana et al, Hinton et al sugirieron que vale la pena capacitar modelos grandes y engorrosos si hacerlo es la mejor manera de extraer estructura de los datos, pero introdujeron un tipo diferente de entrenamiento, la destilación, para transferir ese conocimiento a un modelo pequeño más adecuado para el despliegue en tiempo real.²

Las técnicas de destilación de conocimientos tienen como objetivo no solo replicar los resultados de los modelos docentes, sino también emular sus "procesos de pensamiento". En la era de los LLM, la KD permitió la transferencia de cualidades abstractas como el estilo, las habilidades de razonamiento y la alineación con las preferencias y valores humanos.³

Además, los modelos más pequeños son fundamentalmente más explicables: en un modelo con cientos de miles de millones de parámetros, es difícil interpretar las contribuciones de diferentes partes de la red neural. Transferir las representaciones aprendidas por grandes modelos de "caja negra" a modelos más simples puede ayudar a aclarar información transformadora en áreas como el diagnóstico médico y el descubrimiento molecular.⁴

AI Academy

El auge de la IA generativa para las empresas

Aprenda sobre el auge histórico de la IA generativa y lo que significa para las empresas.

Ir al episodio

¿Cómo funciona la destilación del conocimiento?

La destilación del conocimiento (KD) no depende de ninguna arquitectura de red neuronal específica, ni siquiera requiere que la red de profesores y la red de estudiantes tengan las mismas arquitecturas: se puede aplicar a cualquier modelo de aprendizaje profundo.

KD aprovecha el hecho de que las redes neuronales artificiales son "aproximadores universales": dados suficientes datos de capacitación y una capa lo suficientemente grande oculta, una red neural puede aproximar cualquier función a la precisión arbitraria.⁵

En el aprendizaje automático convencional, el "conocimiento" de un modelo capacitado se identifica con sus parámetros aprendidos: los pesos (y sesgos) variables, aplicados a las distintas operaciones matemáticas que se producen en la red neuronal, que amplifican o disminuyen la influencia que una determinada parte de la salida de la red tiene sobre otra. Esta visión del conocimiento hace difícil ver cómo un modelo puede absorber los conocimientos de otro modelo de tamaño y estructura diferentes.

En cambio, Hinton et al aplicaron una visión más abstracta y flexible del conocimiento como simplemente "un mapeo aprendido de vectores de entrada a vectores de salida". En otras palabras, KD interpreta el conocimiento de un modelo no como los parámetros estrictamente matemáticos que aprende en el entrenamiento, sino como generaliza a nuevos datos luego de ese entrenamiento.

A través de esta comprensión alternativa del conocimiento, los métodos de destilación del conocimiento tienen como objetivo entrenar a los modelos de los estudiantes para que imiten no solo el resultado final del modelo del profesor para una entrada dada, sino también los pasos de razonamiento que toma el modelo del profesor para llegar a ese resultado final. Conceptualmente, esto funciona de forma similar al ajuste de instrucciones a través de las instrucciones de cadena de pensamiento (CoT), que mejora la calidad de las respuestas LLM al enseñarles a articular su razonamiento "paso a paso".

En el aprendizaje convencional monitorear o autosupervisado , una función de pérdida produce un vector que representa la divergencia (o pérdida) entre las salidas del modelo y las salidas "correctas" (o verdad fundamental) en diferentes entradas. Al ajustar los parámetros del modelo para minimizar la pendiente (o gradiente) de este vector a través de un algoritmo de optimización como el descenso de gradiente, los resultados del modelo se acercan más a los resultados correctos. Si bien los pasos de razonamiento del modelo son “importantes” porque influyen en su resultado final, normalmente no se miden mediante una función de pérdida convencional.

La destilación del conocimiento, por el contrario, también capacita al modelo del estudiante para imitar el proceso de razonamiento del modelo del profesor mediante la adición de un tipo especializado de función de pérdida, la pérdida de destilación, que emplea pasos de razonamiento discretos como objetivos blandos para la optimización.

Objetivos blandos

El resultado de cualquier modelo de IA puede entender como predicciones: un LLM autorregresivo predice las siguientes palabras en una secuencia específica; un modelo de visión artificial empleado para la clasificación de imágenes predice la categoría de una determinada imagen. Para llegar a estas predicciones finales, llamadas “objetivos duros” en este contexto, los modelos de aprendizaje profundo típicamente hacen múltiples predicciones preliminares y utilizan una función softmax para generar los resultados con la mayor probabilidad. Durante el entrenamiento, se emplea una función de pérdida de entropía cruzada para maximizar la probabilidad asignada a la salida correcta y minimizar la probabilidad asignada a las salidas incorrectas.

Por ejemplo, un modelo de clasificación de imágenes predice la probabilidad de que una imagen de entrada pertenezca a cada clase conocida que el modelo está entrenado para reconocer y, a continuación, emite la clase con el valor de probabilidad más alto. En el lenguaje matemático del machine learning, estas predicciones individuales por clases se denominan logits. De manera similar, un LLM autorregresivo predice múltiples posibilidades para cada palabra siguiente y (dependiendo de su configuración de temperatura ) muestra una de esas posibilidades para su salida.

En la destilación del conocimiento, estas predicciones intermedias (los “objetivos blandos”) generadas por el modelo docente a menudo proporcionan los principales datos de entrenamiento para el modelo estudiantil. Las probabilidades relativas asignadas a estas predicciones preliminares proporcionan información valiosa sobre cómo tiende a generalizar el modelo del profesor. Por ejemplo, es muchas veces más probable que un modelo de clasificación de imágenes clasifique erróneamente una imagen de un zorro como "perro" que como "sándwich". Por lo tanto, los objetivos blandos proporcionan mucha más información por caso de capacitación que los objetivos duros por sí solos.

Los objetivos blandos también proporcionan más consistencia que los objetivos duros: la predicción final de un modelo podría depender en última instancia de una diferencia minúscula entre dos valores logit, pero los valores logit en sí tienen mucha menos variación en el gradiente entre cada ejemplo de entrenamiento.

Debido a la riqueza y estabilidad de la información proporcionada por los objetivos flexibles, el modelo de estudiante puede capacitar con menos ejemplos de entrenamiento, empleando una tasa de aprendizaje más alta, que la que se empleó para capacitar el modelo de profesor original.

Pérdida por destilación

Para acercar las tendencias de generalización de la red de estudiantes a las de la red de profesores, la destilación del conocimiento suele emplear dos funciones de pérdida. La primera es una función de pérdida estándar que opera con “pérdida dura”, midiendo los resultados finales del modelo del estudiante contra las etiquetas de verdad del terreno (en el aprendizaje monitorear) o contra la muestra de datos original (en el aprendizaje autosupervisado). La segunda es la pérdida por destilación, una “pérdida suave” que mide los objetivos suaves del modelo de estudiante frente a los del maestro.

Debido a que puede haber múltiples objetivos blandos para cada ejemplo de capacitación, la pérdida por destilación mide la diferencia entre la distribución de probabilidad de los objetivos blandos de la red docente y la distribución de probabilidad de los estudiantes. La divergencia de Kullback-Leibler (o “divergencia KL”) se emplea comúnmente para este propósito.

Tipos de conocimiento en la destilación del conocimiento

Si bien los logits son el enfoque típico de la transferencia de conocimientos entre docentes y alumnos, hay varias formas en que el "conocimiento" puede manifestar en una red neuronal profunda. Otros métodos de destilación de conocimiento se centran en pesos y activaciones en las capas ocultas de la red, o en las relaciones entre diferentes partes de la red.

Estas diferentes formas de conocimiento generalmente se dividen en una de tres categorías: conocimiento basado en respuestas, conocimiento basado en características o conocimiento basado en relaciones.

Conocimiento basado en respuestas

El conocimiento basado en respuestas, el género más común de destilación de conocimiento, se centra en la transferencia de información desde la capa de salida final del modelo docente. En un método típico de KD basado en respuestas, el modelo de estudiante se capacita para generar logits que coincidan con las predicciones del modelo de profesor.

Cuando los objetivos blandos del modelo del profesor tienen una entropía baja -en otras palabras, cuando las predicciones son extremadamente "seguras", como si un modelo de clasificación produjera un logit muy cercano a 1 (que representa la seguridad) para una clase y logits cercanos a 0 para todas las demás-, no proporcionan tanta información. Por lo tanto, los métodos basados en la respuesta a menudo utilizan una configuración de alta temperatura para las salidas del modelo, lo que aumenta la entropía de las predicciones del modelo. Esto asegura una distribución de probabilidad más variable y por lo tanto una mayor cantidad de información de cada ejemplo de entrenamiento.

Conocimiento basado en características

El conocimiento basado en características se centra en la información que se transmite en las capas intermedias, o "capas ocultas", de una red neuronal. Aquí es donde las redes neuronales tienden a realizar la extracción de características, la identificación de características y patrones distintos de los datos de entrada que son relevantes para la tarea en cuestión.

Por ejemplo, en las redes neuronales convolucionales empleadas predominantemente para tareas de visión artificial como la segmentación de imágenes, cada capa oculta sucesiva captura detalles progresivamente más ricos a medida que los datos se transmiten a través de la red. En un modelo empleado para clasificar imágenes de animales por especies, las primeras capas ocultas podrían simplemente discernir la presencia de una forma de animal en una parte de la foto; las capas intermedias ocultas podrían discernir que el animal es un pájaro; Las capas ocultas finales, justo antes de la capa de salida, discernirían los detalles matizados que diferencian una especie de ave de otra especie estrechamente relacionada.

El objetivo de los métodos de destilación de conocimiento basados en características es, por lo tanto, capacitar al modelo de estudiante para que aprenda las mismas características que la red de profesores. Las funciones de pérdida de destilación basadas en características se emplean para medir y luego minimizar la diferencia entre las activaciones de características de las dos redes.

Conocimiento basado en relaciones

Mientras que tanto el conocimiento basado en respuestas como el basado en características se centran en los resultados de capas de modelos específicas, la destilación de conocimiento basada en relaciones se centra en las relaciones entre diferentes capas o entre mapas de entidades que representan las activaciones en diferentes capas o ubicaciones.

En esencia, el conocimiento basado en relaciones representa quizás el enfoque integral para capacitar a la red de estudiantes para emular el “proceso de pensamiento” del modelo docente. Estas relaciones y correlaciones se pueden modelar de varias maneras, incluidas correlaciones entre mapas de características, matrices que representan la similitud entre diferentes capas, incorporaciones de características o distribuciones probabilísticas de representaciones de características.

Esquemas de destilación de conocimientos

Los métodos de destilación de conocimientos también pueden clasificar por su impacto en la red de profesores. Mientras que el proceso de destilación propuesto originalmente por Hinton et al y las numerosas evoluciones posteriores de esa metodología tienen como único objetivo capacitar la red del alumno, otros esquemas de destilación también implican la actualización simultánea de los pesos de la red del profesor.

Destilación fuera de línea

En la destilación fuera de línea, la red de profesores ya está previamente capacitada y las ponderaciones de su modelo se congelan para evitar más cambios. La destilación sin conexión es típica de muchos enfoques de KD para LLM, en los que el profesor suele ser un modelo propietario más grande para el que no se pueden cambiar las ponderaciones del modelo.

Destilación en línea

En algunas circunstancias, es posible que no esté disponible un modelo de maestro debidamente capacitado y con un rendimiento adecuado, o un científico de datos podría querer adaptar la red de maestros a su caso de uso específico. Los esquemas de destilación en línea tienen como objetivo capacitar simultáneamente tanto a las redes de maestros como de estudiantes.

Por ejemplo, Cioppa et al propusieron un esquema de destilación en línea para los modelos de segmentación semántica empleados en eventos deportivos en tiempo real, donde las circunstancias visuales pueden cambiar a lo largo de un partido. Su objetivo era eludir el equilibrio entre la velocidad de una red más pequeña y la precisión de una red más grande entrenando continuamente un modelo lento y de buen rendimiento con datos de partidos en tiempo real y, al mismo tiempo, destilando el conocimiento de ese modelo más grande en un modelo más pequeño y más rápido desplegado para generar resultados en tiempo real.⁶

Autodestilación

En la autodestilación, una red actúa como maestra y estudiante. Mientras que la destilación de conocimiento convencional implica la transferencia de conocimiento de un modelo a otro, la autodestilación puede entender como la transferencia de conocimiento desde las capas más profundas de una red a las capas superficiales de la misma red.⁷

En la autodestilación, se agregan múltiples “clasificadores superficiales” basados en la atención a las capas intermedias del modelo a diferentes profundidades. Durante el entrenamiento, los clasificadores en profundidad actúan como modelos de profesores y guían el entrenamiento de los otros módulos basados en la atención a través de dos tipos de pérdidas por destilación: una pérdida métrica de divergencia KL en los mapas y una pérdida de regularización L2.

Una vez que el modelo está capacitado y listo para la inferencia, todos estos clasificadores superficiales se eliminan del modelo. Básicamente, esto permite que el modelo sea más grande y tenga mayor capacidad de reconocimiento de patrones durante el entrenamiento, pero luego sea más pequeño y, en consecuencia, más rápido y eficiente cuando se implemente.

Destilación de conocimientos y LLM

Con la llegada de los LLM, la destilación del conocimiento se convirtió en un medio importante para transferir las capacidades avanzadas de modelos grandes, a menudo propietarios, a modelos más pequeños, a menudo de código abierto. Como tal, se ha convertido en una herramienta importante en la democratización de la IA generativa.

Los LLM con las capacidades más altas son, en la mayoría de los casos, demasiado costosos y computacionalmente exigentes para ser accesibles a muchos posibles usuarios como aficionados, startups o instituciones de investigación. Además, a pesar de su desempeño avanzado y capacidades únicas, las LLM patentadas por su naturaleza no pueden adaptarse a aplicaciones de nicho y casos de uso específicos.

Además, la mayoría de los LLM comercialmente viables son demasiado grandes y computacionalmente exigentes para usar localmente en teléfonos móviles u otros dispositivos edge. Esto presenta varias complicaciones logísticas, computacionales y de privacidad que, de otro modo, se evitarían con un modelo más pequeño que podría ejecutar directamente en dispositivos móviles. Por lo tanto, la compresión de modelos de KD presenta un medio prometedor para transferir las cualidades emergentes de modelos grandes a modelos lo suficientemente pequeños como para ejecutarlos en el dispositivo.

Otros usos comunes de la destilación de conocimientos para los LLM incluyen:

Hacer que los LLM sean multilingües, por ejemplo, mediante el uso de múltiples modelos de profesores, cada uno de los cuales se especializa en un idioma distinto, para transferir el conocimiento lingüístico a un solo modelo de estudiante⁸ o mediante el entrenamiento conjunto de modelos en idiomas separados para generar incorporaciones similares para la misma oración.⁹
Uso de LLM patentadas más grandes para generar conjuntos de datos para el ajuste de instrucciones de modelos más pequeños. Por ejemplo, el modelo Orca de Microsoft "aprende de señales ricas de GPT-4, incluidas trazas explicativas, procesos de pensamiento paso a paso y otras instrucciones complejas". ¹⁰
Empleando un modelo de profesor para clasificar los resultados de los estudiantes, destilando sus preferencias y configuraciones de alineación a través de una variación del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) denominada aprendizaje por refuerzo a partir de la retroalimentación de la IA (RLAIF).¹¹

Comience a obtener el retorno de la inversión (ROI): una guía práctica para la IA agéntica

Aprenda a escalar la IA agéntica para obtener un ROI medible en toda su empresa. Este playbook describe las principales barreras que limitan el impacto, cómo medir eficazmente el ROI y un marco práctico para impulsar una adopción exitosa en toda la empresa.

Recursos

La empresa en 2030: diseñada para la innovación perpetua

Descubra nuestras cinco predicciones sobre lo que definirá a las empresas más exitosas en 2030 y los pasos que los líderes pueden tomar para obtener una ventaja de IA-first.

Lleve sus habilidades de IA generativa al siguiente nivel

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

De los proyectos de IA a los beneficios: Cómo la IA agéntica puede mantener la rentabilidad financiera

Descubra cómo las organizaciones están pasando de lanzar IA en pilotos dispares a aplicarla para impulsar la transformación en el núcleo.

Explicación de la IA generativa

Techsplainers de IBM desglosa los aspectos esenciales de la IA generativa, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

La guía del CEO para la IA generativa

Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.

watsonx Developer Hub

Explore herramientas y recursos esenciales para acelerar su próximo proyecto. Comience y descubra la gama completa de modelos compatibles disponibles en IBM.

La verdad sobre el éxito de la IA generativa

Descubra los beneficios de las plataformas de IA que permiten personalizar los modelos fundacionales mediante tecnología, procesos y mejores prácticas para ayudarle a poner en práctica fácilmente el ciclo de vida de la IA generativa.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore modelos para lenguaje, código, series temporales y medidas de seguridad.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo

Notas de pie de página

¹ “Compresión del modelo”, Actas de la Duodécima Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos, 23 de agosto de 2006

² "Distilling the Knowledge in a Neural Network", arXiv, 9 de marzo de 2015
³ "A Survey on Knowledge Distillation of Large Language Models", arXiv, 8 de marzo de 2024
⁴ "Improving drug-target affinity prediction via feature fusion and knowledge distillation", Briefings in Bioinformatics, mayo de
^{2023 5} "A three layer neural network can represent any multivariate function", arXiv, 16 de enero
de 2022 ⁶ "ARTHuS: Adaptive Real-Time Human Segmentation in Sports Through Online Distillation", 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019
⁷ "Self-Distillation: Towards Efficient and Compact Neural Networks", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, no. 8, págs. 4388-4403, 1 August 2022
⁸ "Multilingual Neural Machine Translation with Knowledge Distillation", arXiv, 30 de abril de 2019
⁹ "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation", arXiv, 21 de abril de
^{2020 10} "Orca: Progressive Learning from Complex Explanation Traces of GPT-4", Hugging Face, 5 de junio de 2023
¹¹ "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback", arXiv, 1 de septiembre de 2023

qué es la destilación del conocimiento

Autores

qué es la destilación del conocimiento

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

¿Por qué es importante la destilación del conocimiento?

El auge de la IA generativa para las empresas

¿Cómo funciona la destilación del conocimiento?

Objetivos blandos

Pérdida por destilación

Tipos de conocimiento en la destilación del conocimiento

Conocimiento basado en respuestas

Conocimiento basado en características

Conocimiento basado en relaciones

Esquemas de destilación de conocimientos

Destilación fuera de línea

Destilación en línea

Autodestilación

Destilación de conocimientos y LLM

Recursos

Notas de pie de página