¿Qué es el fine-tuning eficiente en parámetros (PEFT)?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

¿Qué es el fine-tuning eficiente en parámetros (PEFT)?

El fine-tuning eficiente en parámetros (PEFT) es un método para mejorar el rendimiento de modelos de lenguaje de gran tamaño (LLM) preentrenados y redes neuronales para tareas o conjuntos de datos específicos. Al entrenar un pequeño conjunto de parámetros y conservar la mayor parte de la estructura del modelo preentrenado, PEFT ahorra tiempo y recursos informáticos.

Las redes neuronales entrenadas para tareas generales como el procesamiento del lenguaje natural (PLN, por sus siglas en inglés) o la clasificación de imágenes pueden especializarse en una nueva tarea relacionada sin necesidad de volver a entrenarlas por completo. El PEFT es una forma eficiente de construir modelos altamente especializados sin tener que empezar de cero cada vez.

¿Cómo funciona el fine-tuning eficiente en parámetros?

PEFT funciona congelando la mayoría de los parámetros y capas del modelo preentrenados, al tiempo que agrega algunos parámetros entrenables, conocidos como adaptadores, a las capas finales para tareas posteriores predeterminadas.

Los modelos afinados conservan todo el aprendizaje obtenido durante el entrenamiento mientras se especializan en sus respectivas tareas posteriores. Muchos métodos PEFT mejoran aún más la eficiencia con el "gradient checkpointing", una técnica de ahorro de memoria que ayuda a los modelos a aprender sin almacenar tanta información a la vez.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¿Por qué es importante el fine-tuning eficiente en parámetros?

El fine-tuning eficiente en parámetros equilibra la eficiencia y el rendimiento para ayudar a las organizaciones a maximizar los recursos informáticos y minimizar los costes de almacenamiento. Cuando se ajustan con métodos PEFT, los modelos basados en transformadores como GPT-3, LLaMA y BERT pueden utilizar todo el conocimiento contenido en sus parámetros de preentrenamiento y, al mismo tiempo, funcionar mejor de lo que lo harían sin un fine-tuning.

El PEFT se utiliza a menudo durante el aprendizaje por transferencia, en el que los modelos entrenados en una tarea se aplican a una segunda tarea relacionada. Por ejemplo, un modelo entrenado en la clasificación de imágenes puede aplicarse a la detección de objetos. Si un modelo base es demasiado grande para volver a entrenarlo completamente o si la nueva tarea es diferente de la original, PEFT puede ser una solución ideal.

Mixture of Experts | 28 de agosto, episodio 70

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Ver los últimos episodios del pódcast

PEFT en comparación con fine-tuning

Los métodos tradicionales de fine-tuning completo implican ligeros ajustes de todos los parámetros de los LLM preentrenados para adaptarlos a tareas específicas. Pero a medida que los avances en inteligencia artificial (IA) y deep learning (DL) han llevado a los modelos a ser más grandes y complejos, el proceso de fine-tuning se ha vuelto demasiado exigente en recursos computacionales y energía.

Además, cada modelo afinado tiene el mismo tamaño que el original. Todos estos modelos ocupan mucho espacio de almacenamiento, lo que aumenta aún más los costes para las organizaciones que los utilizan. Aunque el fine-tuning crea un aprendizaje automático (ML, por sus siglas en inglés) más eficiente , el proceso de fine-tuning de los LLM se ha vuelto ineficaz.

PEFT ajusta los parámetros más relevantes para el caso de uso previsto del modelo con el fin de ofrecer un rendimiento del modelo especializado, al tiempo que reduce los pesos del modelo para lograr un ahorro significativo en costes computacionales y tiempo.

Beneficios del PEFT

El fine-tuning eficiente en parámetros aporta una gran cantidad de ventajas que lo han hecho popular entre las organizaciones que utilizan LLM en su trabajo:

Mayor eficiencia
Tiempo de obtención de valor más rápido
Sin olvidos catastróficos
Menor riesgo de sobreajuste
Menores demandas de datos
IA más accesible
IA más flexible

Mejora de la eficiencia

La mayoría de los grandes modelos del lenguaje utilizados en la IA generativa funcionan con costosas unidades de procesamiento gráfico (GPU, por sus siglas en inglés) de fabricantes como Nvidia. Cada LLM utiliza grandes cantidades de recursos computacionales y energía. Ajustar solo los parámetros más relevantes supone un gran ahorro de energía y de costes de computación en la nube.

Más rapidez en la obtención de valor

El tiempo de obtención de valor es el tiempo que se tarda en desarrollar, formar e implementar un LLM para que pueda empezar a generar valor para la organización que lo utiliza. Como el PEFT solo ajusta unos pocos parámetros entrenables, se tarda mucho menos en actualizar un modelo para una nueva tarea. El PEFT puede ofrecer un rendimiento comparable al de un proceso completo de fine-tuning con una fracción del tiempo y los gastos.

Sin olvidos catastróficos

El olvido catastrófico se produce cuando los LLM pierden u "olvidan" los conocimientos adquiridos durante el proceso de entrenamiento inicial al ser reentrenados o ajustados para nuevos casos de uso. Como PEFT conserva la mayoría de los parámetros iniciales, también protege contra el olvido catastrófico.

Menor riesgo de sobreajuste

El sobreajuste ocurre cuando un modelo se ciñe demasiado a sus datos de entrenamiento durante el proceso de entrenamiento, lo que le incapacita para generar predicciones precisas en otros contextos. Los modelos de transformador sintonizados con PEFT son mucho menos propensos al sobreajuste, ya que la mayoría de sus parámetros permanecen estáticos.

Menor demanda de datos

Al centrarse en unos pocos parámetros, el PEFT reduce los requisitos de datos de entrenamiento para el proceso de fine-tuning. El fine-tuning completo requiere un conjunto de datos de entrenamiento mucho mayor, ya que todos los parámetros del modelo se ajustarán durante el proceso de fine-tuning.

IA más accesible

Sin el PEFT, los costes de desarrollar un LLM especializado son demasiado elevados para que muchas organizaciones pequeñas o medianas puedan asumirlos. El PEFT pone los LLM a disposición de equipos que, de otro modo, no dispondrían del tiempo o los recursos necesarios para entrenar y afinar modelos.

IA más flexible

El PEFT permite a los científicos de datos y otros profesionales personalizar los LLM generales para casos de uso individuales. Los equipos de IA pueden experimentar con la optimización de modelos sin preocuparse tanto por consumir recursos informáticos, energéticos y de almacenamiento.

Técnicas PEFT

Los equipos de IA tienen a su disposición varias técnicas y algoritmos PEFT, cada uno con sus ventajas y especializaciones relativas. Muchas de las herramientas PEFT más populares se pueden encontrar en Hugging Face y en otras muchas comunidades de GitHub.

Adaptadores
LoRA
QLoRA
Prefix-tuning
Prompt-tuning
Ajuste P

Adaptadores

Los adaptadores son una de las primeras técnicas PEFT aplicadas a modelos de procesamiento del lenguaje natural (PLN). Los investigadores se esforzaron por superar el reto de entrenar un modelo para múltiples tareas descendentes minimizando al mismo tiempo los pesos del modelo. Los módulos adaptadores fueron la solución: pequeños complementos que insertan un puñado de parámetros entrenables y específicos para cada tarea en cada capa transformadora del modelo.

LoRA

Introducida en 2021, la adaptación de bajo rango de modelos de lenguaje de gran tamaño (LoRA) utiliza matrices gemelas de descomposición de bajo rango para minimizar los pesos del modelo y reducir aún más el subconjunto de parámetros entrenables.

QLoRA

QLoRA es una versión ampliada de LoRA que cuantifica o estandariza el peso de cada parámetro preentrenado a solo 4 bits del peso típico de 32 bits. Como tal, QLoRA ofrece un importante ahorro de memoria y permite ejecutar un LLM en una sola GPU.

Ajuste de prefijos

Específicamente creado para los modelos de generación de lenguaje natural (GLN), el prefix-tuning añade un vector continuo específico de la tarea, conocido como prefijo, a cada capa del transformador mientras se mantienen congelados todos los parámetros. Como resultado, los modelos ajustados con prefijos almacenan mil veces menos parámetros que los modelos totalmente ajustados con un rendimiento comparable.

Ajuste de prompts

El ajuste de prompts simplifica el ajuste de prefijos y entrena los modelos inyectando instrucciones a medida en los datos de entrada o de entrenamiento. Las indicaciones duras se crean manualmente, mientras que las suaves son cadenas de números generadas por la IA que extraen conocimientos del modelo base. Se ha comprobado que los prompts suaves superan a los duras generadas por el ser humano durante el ajuste.

Ajuste P

El P-tuning es una variación del prompt-tuning diseñado para tareas de comprensión del lenguaje natural (CLN). En lugar de utilizar instrucciones creadas manualmente, el P-tuning introdujo la formación y generación automatizadas de instrucciones que, con el tiempo, producen instrucciones más impactantes.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Recursos

Amplíe sus conocimientos de ML

Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Ponga la IA a trabajar: cómo impulsar el ROI con la IA generativa

¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explore IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.

Cómo prosperar en la era de la IA con seguridad y confianza

Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.

Informe AI in Action

Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai

Solicite una demostración en directo

¿Qué es el fine-tuning eficiente en parámetros (PEFT)?

Autores

¿Qué es el fine-tuning eficiente en parámetros (PEFT)?

¿Cómo funciona el fine-tuning eficiente en parámetros?

Las últimas tendencias en IA, presentadas por expertos

¡Gracias! Está suscrito.

¿Por qué es importante el fine-tuning eficiente en parámetros?

Descifrar la IA: resumen semanal de noticias

PEFT en comparación con fine-tuning

Beneficios del PEFT

Mejora de la eficiencia

Más rapidez en la obtención de valor

Sin olvidos catastróficos

Menor riesgo de sobreajuste

Menor demanda de datos

IA más accesible

IA más flexible

Técnicas PEFT

Adaptadores

LoRA

QLoRA

Ajuste de prefijos

Ajuste de prompts

Ajuste P

Recursos