El fine-tuning eficiente en parámetros (PEFT) es un método para mejorar el rendimiento de grandes modelos de lenguaje (LLM) preentrenados y redes neuronales para tareas o conjuntos de datos específicos. Al entrenar un pequeño conjunto de parámetros y conservar la mayor parte de la estructura del modelo preentrenado, PEFT ahorra tiempo y recursos informáticos.
Las redes neuronales entrenadas para tareas generales como el procesamiento del lenguaje natural (PLN, por sus siglas en inglés) o la clasificación de imágenes pueden especializarse en una nueva tarea relacionada sin necesidad de volver a entrenarlas por completo. El PEFT es una forma eficiente de construir modelos altamente especializados sin tener que empezar de cero cada vez.
El PEFT funciona congelando la mayoría de los parámetros y capas del modelo lingüístico preentrenado y añadiendo unos pocos parámetros entrenables, conocidos como adaptadores, a las capas finales para tareas posteriores predeterminadas.
Los modelos afinados conservan todo el aprendizaje obtenido durante el entrenamiento mientras se especializan en sus respectivas tareas posteriores. Muchos métodos PEFT mejoran aún más la eficiencia con el "gradient checkpointing", una técnica de ahorro de memoria que ayuda a los modelos a aprender sin almacenar tanta información a la vez.
El fine-tuning eficiente en parámetros equilibra la eficiencia y el rendimiento para ayudar a las organizaciones a maximizar los recursos informáticos y minimizar los costes de almacenamiento. Cuando se ajustan con métodos PEFT, los modelos basados en transformadores, como GPT-3, LLaMA y BERT, pueden utilizar todo el conocimiento contenido en sus parámetros de preentrenamiento y, al mismo tiempo, obtener mejores resultados de los que obtendrían sin un fine-tuning.
El PEFT se utiliza a menudo durante el aprendizaje por transferencia, en el que los modelos entrenados en una tarea se aplican a una segunda tarea relacionada. Por ejemplo, un modelo entrenado en la clasificación de imágenes puede aplicarse a la detección de objetos. Si un modelo base es demasiado grande para volver a entrenarlo completamente o si la nueva tarea es diferente de la original, PEFT puede ser una solución ideal.
Los métodos tradicionales de fine-tuning completo implican ligeros ajustes de todos los parámetros de los LLM preentrenados para adaptarlos a tareas específicas. Pero a medida que los avances en inteligencia artificial (IA) y deep learning (DL) han llevado a los modelos a ser más grandes y complejos, el proceso de fine-tuning se ha vuelto demasiado exigente en recursos computacionales y energía.
Además, cada modelo afinado tiene el mismo tamaño que el original. Todos estos modelos ocupan mucho espacio de almacenamiento, lo que aumenta aún más los costes para las organizaciones que los utilizan. Aunque el fine-tuning crea un aprendizaje automático (ML, por sus siglas en inglés) más eficiente , el proceso de fine-tuning de los LLM se ha vuelto ineficaz.
El PEFT ajusta el puñado de parámetros más relevantes para el caso de uso previsto del modelo con el fin de ofrecer un rendimiento especializado del modelo y, al mismo tiempo, reducir los pesos del modelo para lograr un importante ahorro de tiempo y costes computacionales.
El fine-tuning eficiente en parámetros aporta una gran cantidad de ventajas que lo han hecho popular entre las organizaciones que utilizan LLM en su trabajo:
La mayoría de los grandes modelos del lenguaje utilizados en la IA generativa funcionan con costosas unidades de procesamiento gráfico (GPU, por sus siglas en inglés) de fabricantes como Nvidia. Cada LLM utiliza grandes cantidades de recursos computacionales y energía. Ajustar solo los parámetros más relevantes supone un gran ahorro de energía y de costes de computación en la nube.
El tiempo de obtención de valor es el tiempo que se tarda en desarrollar, formar e implementar un LLM para que pueda empezar a generar valor para la organización que lo utiliza. Como el PEFT solo ajusta unos pocos parámetros entrenables, se tarda mucho menos en actualizar un modelo para una nueva tarea. El PEFT puede ofrecer un rendimiento comparable al de un proceso completo de fine-tuning con una fracción del tiempo y los gastos.
El olvido catastrófico se produce cuando los LLM pierden u "olvidan" los conocimientos adquiridos durante el proceso de entrenamiento inicial al ser reentrenados o ajustados para nuevos casos de uso. Como el PEFT conserva la mayoría de los parámetros iniciales, también protege contra el olvido catastrófico.
El sobreajuste ocurre cuando un modelo se ciñe demasiado a sus datos de entrenamiento durante el proceso de entrenamiento, lo que le incapacita para generar predicciones precisas en otros contextos. Los modelos de transformador sintonizados con PEFT son mucho menos propensos al sobreajuste, ya que la mayoría de sus parámetros permanecen estáticos.
Al centrarse en unos pocos parámetros, el PEFT reduce los requisitos de datos de entrenamiento para el proceso de fine-tuning. El fine-tuning completo requiere un conjunto de datos de entrenamiento mucho mayor, ya que todos los parámetros del modelo se ajustarán durante el proceso de fine-tuning.
Sin el PEFT, los costes de desarrollar un LLM especializado son demasiado elevados para que muchas organizaciones pequeñas o medianas puedan asumirlos. El PEFT pone los LLM a disposición de equipos que, de otro modo, no dispondrían del tiempo o los recursos necesarios para entrenar y afinar modelos.
El PEFT permite a los científicos de datos y otros profesionales personalizar los LLM generales para casos de uso individuales. Los equipos de IA pueden experimentar con la optimización de modelos sin preocuparse tanto por consumir recursos informáticos, energéticos y de almacenamiento.
Los equipos de IA tienen a su disposición varias técnicas y algoritmos PEFT, cada uno con sus ventajas y especializaciones relativas. Muchas de las herramientas PEFT más populares se pueden encontrar en Hugging Face y en otras muchas comunidades de GitHub.
Los adaptadores son una de las primeras técnicas PEFT aplicadas a modelos de procesamiento del lenguaje natural (PLN). Los investigadores se esforzaron por superar el reto de entrenar un modelo para múltiples tareas descendentes minimizando al mismo tiempo los pesos del modelo. Los módulos adaptadores fueron la respuesta: pequeños complementos que insertan un puñado de parámetros entrenables y específicos de la tarea en cada capa transformadora del modelo.
Introducida en 2021, la adaptación de bajo rango de grandes modelos lingüísticos (LoRA, por sus siglas en inglés) utiliza matrices gemelas de descomposición de bajo rango para minimizar los pesos del modelo y reducir aún más el subconjunto de parámetros entrenables.
QLoRA es una versión ampliada de LoRA que cuantifica o estandariza el peso de cada parámetro preentrenado a solo 4 bits del peso típico de 32 bits. Como tal, QLoRA ofrece un importante ahorro de memoria y permite ejecutar un LLM en una sola GPU.
Específicamente creado para los modelos de generación de lenguaje natural (NLG, por sus siglas en ingles), el ajuste de prefijos añade un vector continuo específico de la tarea, conocido como prefijo, a cada capa del transformador mientras se mantienen congelados todos los parámetros. Como resultado, los modelos ajustados con prefijos almacenan mil veces menos parámetros que los modelos totalmente ajustados con un rendimiento comparable.
El ajuste de prompts simplifica el ajuste de prefijos y entrena los modelos inyectando instrucciones a medida en los datos de entrada o de entrenamiento. Las indicaciones duras se crean manualmente, mientras que las suaves son cadenas de números generadas por la IA que extraen conocimientos del modelo base. Se ha comprobado que los prompts suaves superan a los duras generadas por el ser humano durante el ajuste.
El ajuste P es una variación del ajuste de prompts diseñado para tareas de comprensión del lenguaje natural (NLU, por su siglas en inglés). En lugar de utilizar instrucciones creadas manualmente, el ajuste P introdujo la formación y generación automatizadas de instrucciones que, con el tiempo, producen instrucciones más impactantes.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.