¿Qué es el fine-tuning?

Autor

Senior Staff Writer, AI Models

IBM Think

¿Qué es el fine-tuning?

El fine-tuning en machine learning es el proceso de adaptar un modelo preentrenado para tareas o casos de uso específicos. Se ha convertido en una técnica fundamental de deep learning, especialmente en el proceso de entrenamiento de modelos fundacionales utilizados para la IA generativa.

El fine-tuning podría considerarse un subconjunto de la técnica más amplia de aprendizaje por transferencia: la práctica de aprovechar el conocimiento que un modelo existente ya ha aprendido como punto de partida para aprender nuevas tareas.

La idea detrás del fine-tuning es que, esencialmente, es más fácil y barato perfeccionar las capacidades de un modelo base preentrenado que ya ha adquirido amplios aprendizajes relevantes para la tarea en cuestión que entrenar un nuevo modelo desde cero para ese propósito específico. Esto resulta especialmente cierto en el caso de los modelos de deep learning con millones o incluso miles de millones de parámetros, como los modelos de lenguaje de gran tamaño (LLM) que han cobrado protagonismo en el campo del procesamiento del lenguaje natural (PLN) o las complejas redes neuronales convolucionales (CNN) y los transformadores de visión (ViT) utilizados para tareas de visión artificial como la clasificación de imágenes, la detección de objetos o la segmentación de imágenes.

Al aprovechar el entrenamiento previo de modelos a través del aprendizaje por transferencia, el fine-tuning puede reducir la cantidad de potencia informática costosa y los datos etiquetados necesarios para obtener modelos grandes adaptados a casos de uso de nicho y necesidades comerciales. Por ejemplo, el fine-tuning se puede utilizar para ajustar simplemente el tono conversacional de un LLM previamente entrenado o el estilo de ilustración de un modelo de generación de imágenes previamente entrenado; también se podría usar para complementar los aprendizajes del conjunto de datos de entrenamiento original de un modelo con datos patentados o conocimientos especializados específicos del dominio.

El fine-tuning desempeña un papel importante en la aplicación real de modelos de machine learning, lo que ayuda a democratizar el acceso y la personalización de modelos sofisticados.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Fine-tuning vs. entrenamiento

Si bien el fine-tuning es aparentemente una técnica utilizada en el entrenamiento de modelos, es un proceso distinto de lo que convencionalmente se llama "entrenamiento". En aras de la desambiguación, los científicos de datos suelen referirse a esto último como preformación en este contexto.

(Pre) Formación

Al principio del entrenamiento (o, en este contexto, del preentrenamiento), el modelo aún no ha "aprendido" nada. El entrenamiento comienza con una inicialización aleatoria de los parámetros del modelo: los distintos pesos y sesgos aplicados a las operaciones que se producen en cada nodo de la red neuronal.

El entrenamiento se realiza de forma iterativa en dos fases: en un paso hacia delante, el modelo hace predicciones para un lote de entradas de muestra del conjunto de datos de entrenamiento y una función de pérdida mide la diferencia (o pérdida) entre las predicciones del modelo para cada entrada y las respuestas "correctas" (o la verdad fundamental); durante la retropropagación, se utiliza un algoritmo de optimización (normalmente un descenso de gradiente) para ajustar las ponderaciones del modelo en toda la red a fin de reducir las pérdidas. Estos ajustes de las ponderaciones del modelo son la forma en la que el modelo "aprende". El proceso se repite en varias épocas de entrenamiento hasta que se considere que el modelo está suficientemente entrenado.

El aprendizaje supervisado convencional, que normalmente se utiliza para preentrenar modelos para tareas de visión artificial como clasificación de imágenes, detección de objetos o segmentación de imágenes, utiliza datos etiquetados: etiquetas (o anotaciones) proporcionan tanto el rango de posibles respuestas como la verdad fundamental de salida de cada muestra.

Los LLM suelen ser preentrenados a través del aprendizaje autosupervisado (SSL), en el que los modelos aprenden a través de tareas previas diseñadas para derivar la verdad del terreno de la estructura inherente de datos no etiquetados. Estas tareas pretextuales imparten conocimientos útiles para las tareas posteriores. Por lo general, adoptan uno de estos dos enfoques:

Autopredicción: enmascarar una parte de la entrada original y encargar al modelo la reconstrucción. Este es el modo dominante de entrenamiento para los LLM.
Aprendizaje contrastivo: modelos de entrenamiento para aprender embeddings similares para entradas relacionadas y diferentes embeddings para entradas no relacionadas. Se utiliza de forma destacada en modelos de visión artificial diseñados para el aprendizaje few-shot o zero-shot, como el preentrenamiento de imagen de idioma en contraste (CLIP).

Por lo tanto, SSL permite el uso de datasets enormemente grandes en el entrenamiento sin la carga de tener que anotar millones o miles de millones de puntos de datos. Esto ahorra una enorme cantidad de mano de obra, pero sin embargo requiere enormes recursos computacionales.

Fine-tuning

Por el contrario, el fine-tuning implica técnicas para entrenar aún más un modelo cuyas ponderaciones ya se han actualizado a través de un entrenamiento previo. Al utilizar los conocimientos previos del modelo base como punto de partida, el fine-tuning adapta el modelo entrenándolo en un conjunto de datos más pequeño y específico de la tarea.

Aunque ese conjunto de datos específico de la tarea teóricamente podría haberse utilizado para el entrenamiento inicial, el entrenamiento de un modelo de gran tamaño desde cero en un conjunto de datos pequeño corre el riesgo de sobreajuste: el modelo podría aprender a funcionar bien en los ejemplos de entrenamiento, pero generalizar mal a los nuevos datos. Esto haría que el modelo no se adaptara a la tarea que se le ha encomendado e invalidaría el objetivo del entrenamiento del modelo.

Por lo tanto, el fine-tuning proporciona lo mejor de ambos mundos: aprovechar el amplio conocimiento y la estabilidad obtenidos del entrenamiento previo en un conjunto masivo de datos y perfeccionar la comprensión del modelo de conceptos más detallados y específicos. Dada la creciente destreza de los modelos fundacionales de código abierto, los beneficios a menudo se pueden disfrutar sin la carga financiera, computacional o logística del entrenamiento previo.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

¿Cómo funciona el fine-tuning?

El fine-tuning utiliza las ponderaciones de un modelo previamente entrenado como punto de partida para continuar con el entrenamiento en un conjunto de datos más pequeño de ejemplos que reflejan de manera más directa las tareas y los casos de uso específicos para los que se utilizará el modelo. Normalmente implica aprendizaje supervisado, pero también puede implicar el aprendizaje de refuerzo, el aprendizaje autosupervisado o el aprendizaje semisupervisado.

Los conjuntos de datos utilizados para el fine-tuning transmiten el conocimiento, el estilo, las tareas o los casos de uso del dominio específico para los cuales se está ajustando el modelo previamente entrenado. Por ejemplo:

Un LLM previamente entrenado para el lenguaje general podría afinarse para codificar con un nuevo conjunto de datos que contenga solicitudes de programación relevantes y fragmentos de código correspondientes para cada una.
Un modelo de clasificación de imágenes utilizado para identificar ciertas especies de aves puede aprender nuevas especies a través de muestras de entrenamiento adicionales etiquetadas.
Un LLM puede aprender a emular un estilo de escritura específico a través del aprendizaje autosupervisado en textos de muestra que representan ese estilo.

El aprendizaje semisupervisado, un subconjunto del machine learning que incorpora datos etiquetados y no etiquetados, es ventajoso cuando el escenario requiere aprendizaje supervisado pero los ejemplos etiquetados adecuados son escasos. El fine-tuning semisupervisado ha arrojado resultados prometedores tanto para las tareas de visión artificial¹ como para el PNL² y ayuda a reducir la carga de adquirir una cantidad suficiente de datos etiquetados.

Se puede utilizar el fine-tuning para actualizar las ponderaciones de toda la red, pero por razones prácticas este no siempre es el caso. Existe una amplia variedad de métodos alternativos de fine-tuning, a menudo denominados bajo el término general de fine-tuning eficiente en parámetros (PEFT), que actualizan solo un subconjunto selecto de parámetros del modelo. Los métodos PEFT, que se exploran más adelante en esta sección, pueden disminuir las demandas computacionales y reducir el olvido catastrófico. El fenómeno en el que el fine-tuning causa la pérdida o la destabilización del conocimiento central del modelo a menudo sin compromisos significativos en el rendimiento.

Dada la gran variedad de técnicas de fine-tuning y las numerosas variables inherentes a cada una de ellas, alcanzar el rendimiento ideal del modelo suele requerir múltiples iteraciones de estrategias y configuraciones de entrenamiento, ajustando conjuntos de datos e hiperparámetros como el tamaño del lote, la tasa de aprendizaje y los términos de regularización hasta alcanzar un resultado satisfactorio, según las métricas más relevantes para su caso de uso.

Fine-tuning completo

El medio conceptualmente más sencillo de realizar un fine-tuning es simplemente actualizar toda la red neuronal. Esta sencilla metodología se asemeja esencialmente al proceso de preentrenamiento: las únicas diferencias fundamentales entre los procesos completos de fine-tuning y preentrenamiento son el conjunto de datos que se utiliza y el estado inicial de los parámetros del modelo.

Para evitar cambios desestabilizadores del proceso de fine-tuning, ciertos hiperparámetros (atributos del modelo que influyen en el proceso de aprendizaje pero que no son en sí mismos parámetros aprendibles) pueden ajustarse en relación con sus especificaciones durante el preentrenamiento: por ejemplo, es menos probable que una tasa de aprendizaje más pequeña (que reduce la magnitud de cada actualización de las ponderaciones del modelo) conduzca a un olvido catastrófico.

Fine-tuning eficiente en parámetros (PEFT)

El fine-tuning completo, al igual que el proceso de preentrenamiento al que se asemeja, es muy exigente desde el punto de vista informático. Para los modelos modernos de deep learning con cientos de millones o incluso muchos miles de millones de parámetros, suele ser prohibitivamente costoso y poco práctico.

El fine-tuning eficiente en parámetros (PEFT) abarca una variedad de métodos para reducir el número de parámetros entrenables que deben actualizarse para adaptar de manera efectiva un modelo preentrenado grande a aplicaciones posteriores específicas. Al hacerlo, PEFT disminuye significativamente los recursos computacionales y el almacenamiento de memoria necesarios para producir un modelo ajustado de manera efectiva. Se ha demostrado con frecuencia que los métodos PEFT son más estables que los métodos de fine-tuning completo, especialmente para los casos de uso del PLN³.

Fine-tuning parcial

También llamado fine-tuning selectivo, los métodos de fine-tuning parcial tienen como objetivo reducir las demandas computacionales actualizando solo el subconjunto seleccionado de parámetros preentrenados más críticos para modelar el rendimiento en tareas posteriores relevantes. Los parámetros restantes están "congelados", asegurándose de que no se cambien.

El enfoque de fine-tuning parcial más intuitivo es actualizar solo las capas externas de la red neuronal. En la mayoría de las arquitecturas de modelos, las capas internas del modelo (más cercanas a la capa de entrada) capturan solo características genéricas y amplias: por ejemplo, en una CNN utilizada para la clasificación de imágenes, las primeras capas normalmente distinguen bordes y texturas; cada capa subsiguiente discierne características progresivamente más finas hasta que se predice la clasificación final en la capa más externa. En términos generales, cuanto más similar sea la nueva tarea (para la cual se está ajustando el modelo) a la tarea original, más útiles serán las ponderaciones preentrenadas de las capas internas para esta nueva tarea relacionada y, por lo tanto, cuantas menos capas necesiten actualizarse).

Otros métodos de fine-tuning parcial incluyen actualizar sólo los términos de sesgo de toda la capa del modelo (en lugar de las ponderaciones específicas de cada nodo)⁴y los métodos de fine-tuning "disperso", que actualizan sólo un subconjunto selecto de ponderaciones generales en todo el modelo.⁵

Fine-tuning aditivo

En lugar de ajustar los parámetros existentes de un modelo preentrenado, los métodos aditivos añaden parámetros o capas adicionales al modelo, congelan las ponderaciones preentrenadas existentes y entrenan solo esos nuevos componentes. Este enfoque ayuda a mantener la estabilidad del modelo al garantizar que las ponderaciones originales previamente entrenadas permanezcan sin cambios.

Mientras esto puede incrementar el tiempo de entrenamiento, reduce significativamente los requisitos de memoria, ya que hay muchos menos gradientes y estados de optimización para almacenar: según Lialin, et al, el entrenamiento de todos los parámetros de un modelo requiere entre 12 y 20 veces más memoria en la GPU que las propias ponderaciones del modelo.⁶ Se puede lograr un mayor ahorro de memoria mediante la cuantificación de las ponderaciones congeladas del modelo: una reducción en la precisión utilizada para representar los parámetros del modelo, conceptualmente similar a la reducción de la tasa de bits de un archivo de audio.

Una subrama de los métodos aditivos es el ajuste de instrucciones. Conceptualmente, es similar al prompt engineering, que se refiere a adaptar "selecciones dinámicas difíciles", es decir, instrucciones dinámicas escritas por un humano en lenguaje natural para guiar el modelo hacia el resultado deseado, como especificando un determinado tono o proporcionando ejemplos que faciliten el aprendizaje few-shot. El ajuste de instrucciones introduce instrucciones sencillas creadas por IA: incrustaciones vectoriales que se pueden aprender y se concatenan a las instrucciones difíciles del usuario. En lugar de volver a entrenar el modelo, el ajuste de instrucciones implica congelar las ponderaciones del modelo y, en su lugar, entrena la propia solicitud suave. Rápido y eficiente, el ajuste de instrucciones permite a los modelos cambiar más fácilmente entre tareas específicas, aunque con una compensación en la interpretabilidad.

Adaptadores

Otro subconjunto del fine-tuning aditivo inyecta módulos adaptadores, nuevas capas específicas de tareas agregadas a las redes neuronales, y entrena estos módulos adaptadores en lugar de ajustar cualquiera de las ponderaciones del modelo previamente entrenado (que están congelados). Según el artículo original, que medía los resultados del modelo de lenguaje enmascarado BERT, los adaptadores alcanzaron un rendimiento equivalente al de un fine-tuning completo, mientras que solo entrenaban un 3,6 % de los parámetros.⁷

Reparametrización

Los métodos basados en la reparameterización, como la adaptación de rango bajo (LoRa) , aprovechan la transformación de rango bajo de matrices de alta dimensión (como la enorme matriz de ponderaciones de modelos preentrenados en un modelo de transformador). Estas representaciones de bajo rango omiten la información intrascendente de mayor dimensión para capturar la estructura subyacente de baja dimensión de las ponderaciones del modelo, lo que reduce en gran medida el número de parámetros que se pueden entrenar. Esto acelera drásticamente el fine-tuning y reduce la memoria necesaria para almacenar las actualizaciones de los modelos.

LoRA evita la optimización directa de la matriz de ponderaciones del modelo y, en su lugar, optimiza una matriz de actualizaciones de las ponderaciones del modelo (o pesos delta), que se inserta en el modelo. Esa matriz de actualizaciones de ponderaciones se representa, a su vez, como dos matrices más pequeñas (es decir, de rango inferior), lo que reduce en gran medida el número de parámetros que se van a actualizar, lo que, a su vez, acelera drásticamente el fine-tuning y reduce la memoria necesaria para almacenar las actualizaciones del modelo. Las ponderaciones del modelo preentrenadas permanecen congeladas.

Una ventaja añadida de LoRA es que, dado que lo que se optimiza y almacena no es la nueva ponderación del modelo, sino la diferencia (o delta) entre las ponderaciones originales preentrenadas y las ponderaciones ajustadas, se pueden "intercambiar" diferentes LoRA específicos de la tarea según sea necesario para adaptar el modelo preentrenado, cuyos parámetros reales permanecen inalterados, a un caso de uso determinado.

Se han desarrollado diversos derivados de LoRA, como QLoRA, que reducen aún más la complejidad computacional cuantificando el modelo del transformador antes de LoRA.

Fine-tuning de modelos de lenguaje de gran tamaño

El fine-tuning es una parte esencial del ciclo de desarrollo LLM, lo que permite adaptar las capacidades lingüísticas crudas de los modelos fundacionales a diversos casos de uso, desde chatbots hasta codificación y otros dominios, tanto creativos como técnicos.

Los LLM se entrenan previamente mediante el aprendizaje autosupervisado en un corpus masivo de datos sin etiquetar. Los modelos de lenguaje autorregresivo, como GPT de OpenAI, Gemini de Google o Llama de Meta, están entrenados para predecir simplemente las siguientes palabras de una secuencia hasta que esté completa. En el preentrenamiento, se proporcionan modelos al principio de una oración de muestra extraída de los datos de entrenamiento y se les asigna repetidamente la tarea de predecir la siguiente palabra de la secuencia hasta el final de la muestra. Para cada predicción, la siguiente palabra real de la oración de muestra original sirve como verdad fundamental.

Si bien este preentrenamiento ofrece potentes capacidades de generación de texto, no permite comprender realmente la intención del usuario. En un nivel fundamental, los LLM autorregresivos en realidad no responden a una solicitud; solo le agregan texto.Sin una guía muy específica en forma de ingeniería de instrucciones, un LLM preentrenado (que no ha sido afinado) simplemente predice, de una manera gramaticalmente coherente, cuál podría ser la siguiente palabra(s) en una secuencia dada que es iniciada por la instrucción. Si se le solicita "enséñeme a hacer un currículum" , un LLM podría responder "usando Microsoft Word ". Es una forma válida de completar la frase, pero no está alineada con el objetivo del usuario. Es posible que el modelo ya tenga un conocimiento sustancial de la redacción de currículums obtenido del contenido relevante incluido en su corpus previo al entrenamiento, pero sin un fine-tuning es posible que no se acceda a este conocimiento.

Por lo tanto, el proceso de fine-tuning desempeña un papel crucial no solo a la hora de adaptar los modelos fundacionales al tono y los casos de uso únicos de usted o de su empresa, sino también a la hora de hacerlos totalmente adecuados para un uso práctico.

Ajuste de instrucciones

El ajuste de instrucciones es un subconjunto del fine-tuning detallado supervisado (SFT), que a menudo se utiliza para afinar los LLM para el uso de los chatbots, que prepara el LLM para generar respuestas que aborden de manera más directa las necesidades de los usuarios: en otras palabras, para seguir mejor las instrucciones. Los ejemplos etiquetados, siguiendo el formato (instrucción, respuesta), en los que los ejemplos de instrucciones incluyen tareas orientadas a la instrucción, como "traducir la siguiente oración del inglés al español" o "clasificar la siguiente oración como positiva o negativa", muestran cómo responder a las indicaciones que representan una variedad de casos de uso, como la respuesta a preguntas, el resumen o la traducción. Al actualizar las ponderaciones del modelo para minimizar la pérdida entre las salidas del modelo y las muestras etiquetadas, el LLM aprende a agregar texto a las instrucciones de una manera más útil y a seguir mejor las instrucciones en general.

Continuando con el ejemplo anterior de "enséñeme a escribir un currículum", el conjunto de datos utilizado para SFT podría contener una serie de pares (prompt, respuesta) que demuestran que la forma deseada de responder a los mensajes que comienzan con "enséñeme a" es proporcionar sugerencias paso a paso, en lugar de simplemente completar la oración.

Aprendizaje por refuerzo a partir de comentarios humanos (RLHF)

Mientras que el ajuste de instrucciones puede enseñar al modelo comportamientos tangibles y directos, como la estructuración de sus respuestas, puede resultar prohibitivamente laborioso y difícil enseñar cualidades humanas abstractas como la amabilidad, la exactitud de los hechos, el humor o la empatía a través de ejemplos etiquetados.

Para alinear mejor los resultados del modelo con el comportamiento humano ideal, especialmente para casos de uso conversacional como chatbots, SFT puede complementarse con aprendizaje por refuerzo, en concreto, con aprendizaje por refuerzo a partir de comentarios humanos (RLHF). El RLHF, también llamado aprendizaje por refuerzo a partir de las preferencias humanas, ayuda a ajustar los modelos para cualidades que son complejas, mal definidas o difíciles de especificar a través de ejemplos discretos.

Consideremos la comedia: enseñar a un modelo a ser "gracioso" con SFT no sólo requiere el coste y el trabajo de escribir (o adquirir) suficientes chistes para constituir un patrón aprendible, sino que también requiere que lo que un científico de datos dado piensa que es gracioso se alinee con lo que la base de usuarios encontraría gracioso. Básicamente, RLHF proporciona una alternativa matemáticamente colaborativa: solicitar al LLM que genere chistes y hacer que los probadores humanos califiquen su calidad. Estas calificaciones se pueden usar para entrenar un modelo de recompensas para predecir los tipos de chistes que recibirán comentarios positivos y, a su vez, ese modelo de recompensa se puede usar para entrenar al LLM mediante el aprendizaje por refuerzo. 

Desde un punto de vista más práctico, el RLHF tiene como objetivo abordar los desafíos existenciales de los LLM, como las alucinaciones, que reflejan los sesgos sociales inherentes a los datos de entrenamiento o que abordan las aportaciones groseras o contradictorias de los usuarios.

Casos de uso comunes de fine-tuning

El fine-tuning se puede utilizar para una amplia gama de propósitos, desde la personalización hasta la complementación de los conocimientos básicos del modelo y la ampliación del modelo a tareas y dominios completamente nuevos.

Personalización del estilo: los modelos pueden ajustarse para reflejar el tono deseado por una marca, desde la aplicación de patrones de comportamiento complejos y estilos de ilustración idiosincrásicos hasta modificaciones sencillas como empezar cada intercambio con un saludo cortés.
Especialización: las habilidades lingüísticas generales de los LLM se pueden perfeccionar para tareas específicas. Por ejemplo, los modelos Llama 2 de Meta se lanzaron como modelos fundacionales, variantes ajustadas por chatbots (Llama-2-chat) y variantes ajustadas por código (Code Llama).
Agregar conocimiento específico del dominio: aunque los LLM se preentran en un corpus masivo de datos, no son omniscientes. El uso de muestras de entrenamiento adicionales para complementar el conocimiento del modelo base es particularmente relevante en entornos legales, financieros o médicos, que generalmente implican el uso de vocabulario especializado y esotérico que puede no haber sido suficientemente representado en el entrenamiento previo.
Aprendizaje con pocos intentos: los modelos que ya cuentan con un sólido conocimiento generalizado a menudo pueden ajustarse para clasificar textos más específicos utilizando relativamente pocos ejemplos demostrativos.
Tratamiento de casos extremos: es posible que desee que su modelo gestione determinadas situaciones que probablemente no se hayan cubierto en el preentrenamiento de una forma específica. Perfeccionar un modelo a partir de ejemplos etiquetados de este tipo de situaciones es una forma eficaz de garantizar que se tratan adecuadamente.
Incorporación de datos propios: su empresa puede tener su propia canalización de datos patentados, muy relevante para su caso de uso específico. El fine-tuning permite incorporar este conocimiento al modelo sin necesidad de entrenarlo desde el principio.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

¿Qué es el fine-tuning?

Autor

¿Qué es el fine-tuning?

Las últimas tendencias en IA, presentadas por expertos

¡Gracias! Está suscrito.

Fine-tuning vs. entrenamiento

(Pre) Formación

Fine-tuning

Descifrar la IA: resumen semanal de noticias

¿Cómo funciona el fine-tuning?

Fine-tuning completo

Fine-tuning eficiente en parámetros (PEFT)

Fine-tuning parcial

Fine-tuning aditivo

Adaptadores

Reparametrización

Fine-tuning de modelos de lenguaje de gran tamaño

Ajuste de instrucciones

Aprendizaje por refuerzo a partir de comentarios humanos (RLHF)

Casos de uso comunes de fine-tuning

Recursos