En el campo del aprendizaje automático, ajuste fino (fine-tuning) es el proceso de adaptar un modelo preentrenado para tareas o casos de uso específicos. Dicho proceso se ha convertido en una técnica fundamental de aprendizaje profundo, particularmente en el proceso de entrenamiento de los modelos fundacionales utilizados para IA generativa.
El refinamiento podría considerar un subconjunto de la técnica más amplia de aprendizaje por transferencia: la práctica de aprovechar el conocimiento que un modelo existente ya aprendió como punto de partida para aprender nuevas tareas.
La intuición detrás del ajuste fino es que, esencialmente, es más fácil y económico perfeccionar las capacidades de un modelo base preentrenado que ya adquirió aprendizajes relevantes para la tarea en cuestión que entrenar un nuevo modelo desde cero para ese propósito específico. Esto es especialmente cierto para los modelos de aprendizaje profundo con millones o incluso miles de millones de parámetros, como los LLM que han cobrado importancia en el campo del procesamiento de lenguaje natural o las complejas redes neuronales convolucionales (CNN) y los transformadores de visión (ViT, sigla en inglés de vision transformer) que se emplean para tareas de visión artificial, como la clasificación de imágenes, la detección de objetos o la segmentación de imágenes.
Al aprovechar el entrenamiento previo del modelo a través del aprendizaje por transferencia, el refinamiento puede reducir la cantidad de potencia informática costosa y los datos etiquetados necesarios para obtener modelos grandes adaptados a casos de uso de nicho y necesidades comerciales. Por ejemplo, el refinamiento se puede emplear para ajustar simplemente el tono conversacional de un LLM previamente capacitado o el estilo de ilustración de un modelo de generación de imágenes previamente capacitado; también podría emplearse para complementar los aprendizajes del conjunto de datos de entrenamiento original de un modelo con datos patentados o conocimientos especializados específicos del dominio.
Así pues, el ajuste fino desempeña un papel importante en la aplicación en el mundo real de los modelos de aprendizaje automático, ayudando a democratizar el acceso a modelos sofisticados y su personalización.
Aunque el refinamiento es aparentemente una técnica empleada en el entrenamiento de modelos, es un proceso distinto de lo que convencionalmente se llama "entrenamiento". En aras de la desambiguación, los científicos de datos suelen referir a este último como pre entrenamiento en este contexto.
Al inicio del entrenamiento (o, en este contexto, en el preentrenamiento), el modelo aún no ha “aprendido” nada. El entrenamiento comienza con un inicio aleatorio de los parámetros del modelo: los diferentes pesos y sesgos aplicados a las operaciones matemáticas que ocurren en cada nodo de la red neuronal.
El entrenamiento se produce de forma iterativa en dos fases: en un pase hacia adelante, el modelo hace predicciones para un lote de entradas de muestra del conjunto de datos de entrenamiento, y una función de pérdida mide la diferencia (o pérdida) entre las predicciones del modelo para cada entrada y las respuestas “correctas” (o verdad fundamental); durante la retropropagación, se emplea un algoritmo de optimización, generalmente el descenso del gradiente,para ajustar los pesos del modelo en toda la red para reducir la pérdida. Estos ajustes en los pesos del modelo son la forma en que el modelo “aprende”. El proceso se repite a lo largo de varias épocas de entrenamiento hasta que se considera que está suficientemente entrenado.
El aprendizaje supervisado convencional, que suele emplearse para preentrenar modelos para tareas de visión artificial como la clasificación de imágenes, la detección de objetos o la segmentación de imágenes, emplea datos etiquetados: las etiquetas (o anotaciones) proporcionan tanto el rango de posibles respuestas como la salida de la verdad fundamental de cada muestra.
Por lo general, los LLM se preentrenan a través de aprendizaje autosupervisado (SSL, sigla en inglés de self-supervised learning), en el que los modelos aprenden mediante tareas prediseñadas cuyo objetivo es obtener la verdad fundamental a partir de la estructura inherente de los datos no etiquetados En estas tareas se confieren conocimientos útiles para las tareas posteriores. Por lo general, adoptan una de estas dos perspectivas:
Autopredicción: enmascarar alguna parte de la entrada original y encargar al modelo que la reconstruya. Este es el modo dominante de capacitación para los LLM.
Aprendizaje contrastivo: entrenar a los modelos para que aprendan incorporaciones similares para entradas relacionadas e incorporaciones diferentes para entradas no relacionadas. Esto se emplea preponderantemente en los modelos de visión artificial diseñados para el aprendizaje few-shot o zero-shot, como Contrastive Language-Image Pretraining (CLIP).
Por lo tanto, SSL permite el uso de conjuntos de datos enormemente grandes en el entrenamiento sin la carga de tener que anotar millones o miles de millones de puntos de datos. Esto ahorra una enorme cantidad de mano de obra, pero requiere enormes recursos computacionales.
Por el contrario, el refinamiento implica técnicas para entrenar aún más a un modelo cuyos pesos ya se han actualizado mediante entrenamiento previo. Utilizando el conocimiento previo del modelo base como punto de partida, el refinamiento adapta el modelo entrenándolo en un conjunto de datos más pequeño y específico de la tarea.
Si bien, teóricamente, ese conjunto de datos específico de la tarea podría haberse empleado para el entrenamiento inicial, entrenar un modelo grande desde cero en un conjunto de datos pequeño supone el riesgo de sobreajuste: el modelo podría aprender a funcionar bien en los ejemplos de entrenamiento, pero generalizar de manera deficiente nuevos datos. Esto haría que el modelo no fuera adecuado para la tarea asignada y frustraría el propósito del entrenamiento del modelo.
Por lo tanto, el refinamiento ofrece lo mejor de ambos mundos: aprovechar los amplios conocimientos y la estabilidad adquiridos con el pre entrenamiento en un conjunto masivo de datos y perfeccionar la comprensión del modelo de conceptos más detallados y específicos. Dada la creciente proeza de los modelos fundacionales de código abierto, a menudo se puede disfrutar de los beneficios sin ninguna de las cargas financieras, computacionales o logísticas del pre entrenamiento.
El ajuste fino emplea los pesos de un modelo previamente entrenado como punto de partida para un mayor entrenamiento en un conjunto de datos más pequeño de ejemplos que reflejan más directamente las tareas específicas y los casos de uso para los que se empleará el modelo. Normalmente, implica aprendizaje supervisado, pero también puede implicar aprendizaje por refuerzo, aprendizaje autosupervisado o aprendizaje semisupervisado.
Los conjuntos de datos empleados para el refinamiento transmiten el conocimiento, el estilo, las tareas o los casos de uso específicos del dominio para los que se está refinado el modelo previamente capacitado. Por ejemplo:
Un LLM previamente capacitado para el lenguaje general podría refinarse para la programación con un nuevo conjunto de datos que contenga solicitudes de programación relevantes y fragmentos de código correspondientes para cada una.
Un modelo de clasificación de imágenes empleado para identificar ciertas especies de aves puede aprender nuevas especies a través de muestras de entrenamiento etiquetadas adicionales.
Un LLM puede aprender a emular un estilo de escritura específico mediante el aprendizaje auto supervisado de textos de muestra que representan ese estilo.
El aprendizaje semisupervisado, un subconjunto del aprendizaje automático que incorpora datos etiquetados y no etiquetados, es conveniente cuando el escenario requiere aprendizaje supervisado, pero los ejemplos etiquetados adecuados son escasos. El ajuste fino semisupervisado ha arrojado resultados prometedores tanto para las tareas de visión artificial1 como de PLN2 y ayuda a reducir la presión de adquirir una cantidad suficiente de datos etiquetados.
El ajuste fino puede emplearse para actualizar los pesos de toda la red, pero por razones prácticas no siempre es así. Existe una gran variedad de métodos alternativos de ajuste fino, a menudo denominados en general parameter-efficient fine-tuning (PEFT; en español, ajuste fino eficiente de parámetros), que solo actualizan un subconjunto selecto de parámetros del modelo. Los métodos PEFT que se analizan más adelante en esta sección, disminuyen las demandas computacionales y reducen el olvido catastrófico, fenómeno en el que el ajuste fino causa la pérdida o desestabilización del conocimiento central del modelo) a menudo sin comprometer considerablemente el rendimiento.
Dada la amplia variedad de técnicas de refinamiento y las muchas variables inherentes de cada una, lograr el rendimiento ideal del modelo a menudo requiere múltiples iteraciones de estrategias y configuraciones de entrenamiento, ajustando conjuntos de datos e hiperparámetros como el tamaño del lote, la tasa de aprendizaje y los términos de regularización hasta que se alcanzó un resultado satisfactorio, según las métricas que sean más relevantes para el caso de uso.
El medio conceptualmente más sencillo de realizar un refinamiento es simplemente actualizar todo el neural network. Esta metodología simple se parece esencialmente al proceso de pre entrenamiento: las únicas diferencias fundamentales entre los procesos de refinamiento completo y pre entrenamiento son el conjunto de datos que se emplea y el estado inicial de los parámetros del modelo.
Para evitar cambios desestabilizadores del proceso de refinamiento, ciertos hiperparámetros (atributos del modelo que influyen en el proceso de aprendizaje pero que no son parámetros que se pueden aprender) pueden ajustarse en relación con sus especificaciones durante el entrenamiento previo: por ejemplo, una tasa de aprendizaje más pequeña (que reduce la magnitud de cada actualización de las ponderaciones del modelo) es menos probable que provoque un olvido catastrófico.
El refinamiento completo, al igual que el proceso de pre entrenamiento al que se parece, es muy demandante desde el punto de vista computacional. Para los modelos modernos de aprendizaje profundo con cientos de millones o incluso miles de millones de parámetros, a menudo es demasiado costoso y poco práctico.
El PEFT abarca una variedad de métodos para reducir la cantidad de parámetros que pueden entrenarse y que deben actualizarse para adaptarse de manera eficaz a un modelo grande preentrenado para aplicaciones específicas posteriores. De este modo el PEFT reduce significativamente los recursos computacionales y el almacenamiento de memoria necesarios para producir un modelo ajustado de manera eficaz. Con frecuencia se ha demostrado que los métodos PEFT son más estables que los métodos de ajuste fino completo, especialmente para los casos de uso de PLN3.
El propósito de los métodos de ajuste fino parcial, también llamados de ajuste fino selectivo, es reducir las demandas computacionales actualizando solo el subconjunto seleccionado de parámetros preentrenados más críticos para el rendimiento del modelo en tareas posteriores relevantes. El resto de los parámetros se “congelan”, garantizando así que no se modificarán.
El enfoque de refinamiento parcial más intuitivo es actualizar solo las capas externas de neural networks. En la mayoría de las arquitecturas de modelos, las capas internas del modelo (las más cercanas a la capa de entrada) capturan solo las características amplias y genéricas; por ejemplo, en una CNN empleada para la clasificación de imágenes, las primeras capas suelen discernir bordes y texturas. Cada capa subsiguiente discierne características progresivamente más finas hasta que se predice la clasificación final en la capa más externa. En términos generales, cuanto más similar sea la nueva tarea (para la cual se está refinando el modelo) a la tarea original, más útiles serán los pesos previamente capacitados de las capas internas para esta nueva tarea relacionada y, por lo tanto, menos capas deben actualizarse).
Otros métodos de ajuste fino parcial que incluyen la actualización solo de los términos de sesgo de toda la capa del modelo (en lugar de los pesos específicos del nodo)4 y los métodos de ajuste fino “disperso” que actualizan solo un subconjunto seleccionado de ponderaciones generales en todo el modelo.5
En lugar de ajustar los parámetros actuales de un modelo preentrenado, los métodos aditivos agregan parámetros o capas adicionales al modelo, congelan los pesos preentrenados actuales y entrenan solo a esos nuevos componentes. Este enfoque ayuda a mantener la estabilidad del modelo al garantizar que los pesos originales preentrenados permanezcan inalterados.
Si bien esto puede aumentar el tiempo de entrenamiento, también reduce significativamente los requisitos de memoria porque hay muchos menos gradientes y estados de optimización para almacenar: según Lialin, y colaboradores, el entrenamiento de todos los parámetros de un modelo requiere de 12 a 20 veces más memoria de GPU que los pesos del modelo solos6. Se pueden lograr más ahorros de memoria mediante la cuantización de los pesos del modelo congelados: una reducción en la precisión empleada para representar los parámetros del modelo, conceptualmente similar a reducir la tasa de bits de un archivo de audio.
Una subrama de los métodos aditivos es el el ajuste de instrucciones (prompts). Conceptualmente, es similar a la ingeniería rápida, que se refiere a adaptar las “instrucciones duras”, es decir, instrucciones escritas por un humano en lenguaje natural, para guiar el modelo hacia la salida deseada, como especificar un tono determinado o proporcionar ejemplos que facilitan el aprendizaje few-shot. El ajuste de instrucciones introduce instrucciones suaves creadas por la IA: vectores que pueden aprenderse y que se vinculan con la instrucción dura del usuario. En lugar de volver a entrenar el modelo, el ajuste de instrucciones implica congelar los pesos del modelo y, en su lugar, entrenar a la propia instrucción suave. Rápido y eficiente, el ajuste de instrucciones permite que los modelos cambien más fácilmente entre tareas específicas, aunque sacrificando un poco la interpretabilidad.
Otro subconjunto del ajuste fino aditivo inyecta módulos adaptadores, es decir, nuevas capas para tareas específicas agregadas a la red neuronal, y entrena estos módulos adaptadores en lugar de ajustar cualquiera de los pesos del modelo preentrenados (que están congelados). De acuerdo con el documento original, que midió los resultados del modelo de lenguaje enmascarado Representación de Codificador Bidireccional de Transformadores (BERT, sigla en inglés de Bidirectional Encoder Representations from Transformers), los adaptadores alcanzaron un rendimiento equivalente al del ajuste fino completo mientras entrenaron solo al 3.6 % de la misma cantidad de parámetros7.
Los métodos basados en la reparametrización, como la adaptación de bajo rango (LoRA), aprovechan la transformación de bajo rango de matrices multidimensionales (como la inmensa matriz de pesos del modelo preentrenados en un modelo de transformador). Estas representaciones de bajo rango omiten información intrascendente multidimensional para capturar la estructura subyacente de menor dimensionalidad de los pesos del modelo, lo que reduce en gran medida el número de parámetros que pueden entrenarse. Esto acelera drásticamente el ajuste fino y reduce la memoria necesaria para almacenar las actualizaciones del modelo.
La LoRA evita la optimización directa de la matriz de pesos del modelo y, en su lugar, optimiza una matriz de actualizaciones de los pesos del modelo (o pesos delta), que se inserta en el modelo. Esa matriz de actualizaciones de pesos se representa, a su vez, como dos matrices más pequeñas (es decir, de menor rango), reduciendo así en gran medida la cantidad de parámetros que se actualizarán, lo que a su vez acelera considerablemente el ajuste fino y reduce la memoria necesaria para almacenar las actualizaciones del modelo. Los pesos del modelo preentrenados permanecen congelados.
Un beneficio adicional de LoRA es que, dado que lo que se optimiza y almacena no son las nuevas ponderaciones del modelo, sino la diferencia (o delta) entre las ponderaciones originales previamente capacitadas y las ponderaciones ajustadas, se pueden "intercambiar diferentes LoRA específicos de la tarea", según sea necesario para adaptar el modelo previamente entrenado, cuyos parámetros reales permanecen sin cambios, a un caso de uso determinado.
Se han desarrollado diversos derivados de la LoRA, como QLoRA, que reduce aún más la complejidad computacional al cuantizar el modelo de transformador antes de la LoRA.
El ajuste fino es una parte esencial del ciclo de desarrollo de LLM, ya que permite adaptar las capacidades lingüísticas sin procesar de los modelos fundacionales básicos para una variedad de casos de uso, desde chatbots hasta programación y otros dominios, tanto creativos como técnicos.
Los LLM se preentrenan mediante aprendizaje autosupervisado en un enorme corpus de datos sin etiquetar. Los modelos de lenguaje autoregresivos, como los modelos GPT de OpenAI, Gemini de Google o Llama de Meta, están entrenados para predecir simplemente la(s) siguiente(s) palabra(s) en una secuencia hasta que esté completa. En el preentrenamiento, a los modelos se les proporciona el comienzo de una oración de muestra extraída de los datos de entrenamiento y se les asigna repetidamente la tarea de predecir la siguiente palabra en la secuencia hasta el final de la muestra. Para cada predicción, la siguiente palabra correspondiente de la oración de muestra original sirve como verdad fundamental.
Si bien este entrenamiento previo produce capacidades potentes de generación de texto, no proporciona ninguna comprensión real de la intención de un usuario. En un nivel fundamental, los LLM autorregresivos en realidad no responden a un aviso, sólo le anexantexto.Sin una orientación muy específica en forma de ingeniería rápida, un LLM pre entrenado (que no ha sido refinado) simplemente predice, de una manera gramaticalmente coherente, cuál podría ser la (s) siguiente (s) palabra (s) en una secuencia dada que es iniciada por el indicador. Si se le solicita “enséñame a hacer un currículum”, un LLM podría responder con “usar Microsoft Word”. Es una forma válida de completar la oración, pero no está alineada con el objetivo del usuario. Es posible que el modelo ya tenga un conocimiento sustancial de la redacción de un currículum extraído del contenido relevante incluido en su corpus previo al entrenamiento, pero sin refinar, podría no accederse a este conocimiento.
Por lo tanto, el proceso de refinamiento desempeña un papel crucial no solo en la adaptación de los modelos fundacionales para su tono y casos de uso únicos o los de su compañía, sino también para hacerlos adecuados para el uso práctico.
La afinación de instrucciones es un subconjunto del refinamiento supervisado (SFT), que a menudo se emplea para refinar los LLM para el uso de chatbots, que prepara el LLM para generar respuestas que aborden más directamente las necesidades del usuario: en otras palabras, para seguir mejor las instrucciones. Ejemplos etiquetados, siguiendo el formato (instrucción, respuesta), en el que los ejemplos de instrucciones comprenden tareas orientadas a la instrucción, como “traducir la siguiente oración del inglés al español” o “clasificar la siguiente oración como positiva o negativa”, demuestran cómo responder a instrucciones que representan una variedad de casos de uso, como respuesta a preguntas, resúmenes o traducción. Al actualizar las ponderaciones del modelo para minimizar la pérdida entre los resultados del modelo y las muestras etiquetadas, el LLM aprende a agregar texto a las instrucciones de una manera más útil y a seguir mejor las instrucciones en general.
Continuando con el ejemplo anterior de “enseñarme a escribir un currículum”, el conjunto de datos empleado para SFT podría incluir una serie de pares (instrucción, respuesta) que demuestran que la forma deseada de responder a las instrucciones que comienzan con “enseñarme cómo” es para ofrecer sugerencias paso a paso, en lugar de simplemente completar la oración.
Si bien la afinación de instrucciones puede enseñar al modelo comportamientos tangibles y directos como estructurar sus respuestas, puede ser muy laborioso y difícil enseñar cualidades humanas abstractas como la ayuda, la precisión basada en hechos, el humor o la empatía a través de ejemplos etiquetados.
Para alinear mejor las salidas del modelo con el comportamiento humano ideal, especialmente en casos de uso conversacional como los chatbots, el ajuste fino supervisado puede complementarse con el aprendizaje por refuerzo, más concretamente con el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, sigla en inglés de reinforcement learning from human feedback). El RLHF, también llamado aprendizaje por refuerzo a partir de las preferencias humanas, ayuda a ajustar los modelos respecto de cualidades complejas, mal definidas o difíciles de especificar mediante ejemplos discretos.
Considere la comedia: mostrar a un modelo a ser "divertido" con SFT no solo requiere el costo y el trabajo de escribir (o adquirir) suficientes chistes para constituir un patrón que se pueda aprender, sino que también requiere que lo que un científico de datos determinado piense que es divertido se alinee con lo que la base de usuarios encontraría divertido. Básicamente, el RLHF proporciona una alternativa matemáticamente colaborativa: indicar al LLM que genere chistes y hacer que los probadores humanos califiquen su calidad. Estas calificaciones se pueden usar para entrenar un modelo de recompensa para predecir los tipos de chistes que recibirán retroalimentación positiva y, a su vez, ese modelo de recompensa se puede usar para capacitar el LLM a través del aprendizaje por refuerzo.
De manera más práctica, el objetivo del RLHF es abordar los desafíos existenciales de los LLM, como las alucinaciones, que reflejan los sesgos sociales inherentes a los datos de entrenamiento o lidian con entradas de usuario impertinentes u hostiles.
El refinamiento se puede utilizar para una amplia gama de propósitos, desde personalizar y complementar el conocimiento central del modelo hasta extender el modelo a tareas y dominios completamente nuevos.
Personalización del estilo: Los modelos se pueden refinar para reflejar el tono deseado de una marca, desde la implementación de patrones de comportamiento complejos y estilos de ilustración idiosincrásicos hasta modificaciones simples como comenzar cada intercambio con un saludo cortés.
Especialización: Las habilidades lingüísticas generales de los LLM se pueden perfeccionar para tareas específicas. Por ejemplo, los modelos Llama 2 de Meta se lanzaron como modelos fundacionales, variantes adaptadas al chatbot (Llama-2-chat) y variantes adaptadas al código (Código Llama).
Agregar conocimiento específico del dominio: si bien los LLM están previamente capacitados en un corpus masivo de datos, no son omniscientes. El uso de muestras de entrenamiento adicionales para complementar el conocimiento del modelo base es particularmente relevante en entornos legales, financieros o médicos, que generalmente implican el uso de vocabulario especializado y esotérico que puede no ser suficientemente representado en el entrenamiento previo.
Aprendizaje de pocos intentos: los modelos que ya tienen un conocimiento estable generalizado a menudo se pueden refinar para textos de clasificación más específicos empleando comparativamente pocos ejemplos demostrativos.
Tratamiento de casos extremos: Es posible que desee que su modelo gestione determinadas situaciones que probablemente no se cubrieron en el pre entrenamiento de una forma específica. Refinar un modelo a partir de ejemplos etiquetados de este tipo de situaciones es una forma eficaz de garantizar que se manejan adecuadamente.
Incorporación de datos patentados: es posible que su empresa tenga su propio pipeline de datos patentado, altamente relevante para su caso de uso específico. El ajuste fino permite que este conocimiento se incorpore al modelo sin tener que entrenarlo desde cero.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.
Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.
Todos los enlaces son externos a ibm.com
1 “Big Self-Supervised Models are Strong Semi-Supervised Learners”. arXiv, 26 de octubre de 2020
2 “CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of Pre-trained Language Models”. arXiv, 2 de marzo de 2021
3 “On the Effectiveness of Parameter-Efficient Fine-Tuning”. arXiv, 28 de noviembre de 2022
4 “BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models”. arXiv, 18 de junio de 2021 (última actualización 5 de septiembre de 2022)
5 “Scaling Sparse Fine-Tuning to Large Language Models”. arXiv, 2 de febrero de 2024
6 “Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning”. arXiv, 28 de marzo de 2023
7 “Parameter-Efficient Transfer Learning for NLP”. arXiv, 13 de junio 2019