Las últimas tendencias de IA presentadas por expertos
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
El ajuste eficiente de parámetros (PEFT) es un método para mejorar el rendimiento de modelos de lenguaje grandes (LLM) previamente entrenados y redes neuronales para tareas o conjuntos de datos específicos. Al entrenar un pequeño conjunto de parámetros y conservar la mayor parte de la estructura del modelo preentrenado grande, PEFT ahorra tiempo y recursos computacionales.
Neural networks capacitadas para tareas generales, como el procesamiento de lenguaje natural (NLP) o la clasificación de imágenes, pueden especializarse en una nueva tarea relacionada sin volver a capacitarse por completo. PEFT es una forma eficiente en cuanto a recursos de crear modelos altamente especializados sin tener que empezar desde cero cada vez.
PEFT funciona congelando la mayoría de los parámetros y capas del modelo previamente entrenados, al tiempo que agrega algunos parámetros entrenables, conocidos como adaptadores, a las capas finales para tareas posteriores predeterminadas.
Los modelos ajustados conservan todo el aprendizaje obtenido durante el entrenamiento mientras se especializan en sus respectivas tareas posteriores. Muchos métodos PEFT mejoran aún más la eficiencia con puntos de control de gradiente, una técnica de ahorro de memoria que ayuda a los modelos a aprender sin almacenar tanta información a la vez.
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
El ajuste eficiente de parámetros equilibra la eficiencia y el rendimiento para ayudar a las organizaciones a maximizar los recursos computacionales y minimizar los costos de almacenamiento de información. Cuando se ajustan con métodos PEFT, los modelos basados en transformadores, como GPT-3, LLaMA y BERT, pueden utilizar todo el conocimiento contenido en sus parámetros de preentrenamiento y, al mismo tiempo, funcionar mejor de lo que lo harían sin un ajuste.
PEFT se emplea a menudo durante el aprendizaje por transferencia, donde los modelos entrenados en una tarea se aplican a una segunda tarea relacionada. Por ejemplo, un modelo capacitado en clasificación de imágenes podría ponerse a trabajar en la detección de objetos. Si un modelo base es demasiado grande para volver a entrenarlo completamente o si la nueva tarea es diferente de la original, PEFT puede ser una solución ideal.
Los métodos tradicionales de ajuste completo implican ligeros ajustes en todos los parámetros de los LLM previamente entrenados para adaptarlos a tareas específicas. Pero a medida que los desarrollos en inteligencia artificial (IA) y aprendizaje profundo llevaron a que los modelos sean más grandes y complejos, el proceso de ajuste se volvió demasiado exigente en recursos computacionales y energía.
Además, cada modelo ajustado tiene el mismo tamaño que el original. Todos estos modelos ocupan cantidades significativas de espacio de almacenamiento, lo que aumenta aún más los costos para las organizaciones que los emplean. Si bien el refinamiento crea un machine learning (ML) más eficiente, el proceso de refinamiento de los LLM se volvió ineficiente.
PEFT ajusta el conjunto de parámetros que son más relevantes para el caso de uso previsto del modelo para ofrecer un rendimiento especializado del modelo, al tiempo que reduce las ponderaciones del modelo para lograr un ahorro significativo de costos y tiempo computacional.
El ajuste eficiente de los parámetros aporta una gran cantidad de beneficios que lo hicieron popular entre las organizaciones que emplean LLM en su trabajo:
La mayoría de los modelos de lenguaje de gran tamaño empleados en la IA generativa (IA gen) están impulsados por costosas unidades de procesamiento de gráficos (GPU) producidas por fabricantes como Nvidia. Cada LLM emplea grandes cantidades de recursos computacionales y energía. Ajustar sólo los parámetros más relevantes supone un gran ahorro de energía y de costos de computación en la nube.
El tiempo de creación de valor es la cantidad de tiempo que lleva desarrollar, capacitar e implementar un LLM para que pueda comenzar a generar valor para la organización que lo emplea. Debido a que PEFT ajusta solo unos pocos parámetros entrenables, se necesita mucho menos tiempo para actualizar un modelo para una nueva tarea. PEFT puede ofrecer un rendimiento comparable a un proceso de ajuste completo en una fracción del tiempo y los gastos.
El olvido catastrófico se produce cuando los LLM pierden u "olvidan" los conocimientos adquiridos durante el proceso de entrenamiento inicial al ser reentrenados o ajustados para nuevos casos de uso. Como PEFT conserva la mayoría de los parámetros iniciales, también protege contra olvidos catastróficos.
El sobreajuste ocurre cuando un modelo se ajusta demasiado a sus datos de entrenamiento durante el proceso de entrenamiento, lo que le impide generar predicciones precisas en otros contextos. Los modelos de transformadores ajustados con PEFT son mucho menos propensos al sobreajuste, ya que la mayoría de sus parámetros permanecen estáticos.
Al centrarse en unos pocos parámetros, PEFT reduce los requisitos de datos de entrenamiento para el proceso de ajuste. Un ajuste completo requiere un conjunto de datos de entrenamiento mucho más grande porque todos los parámetros del modelo se ajustarán durante el proceso de ajuste.
Sin PEFT, los costos de desarrollar un LLM especializado son demasiado altos para muchas organizaciones pequeñas o medianas. PEFT pone los LLMs a disposición de los equipos que de otra manera no podrían tener el tiempo o los recursos para entrenar y ajustar modelos.
PEFT permite a los científicos de datos y otros profesionales personalizar los LLM generales para casos de uso individuales. Los equipos de IA pueden experimentar con la optimización de modelos sin preocuparse tanto por la quema de recursos computacionales, energéticos y de almacenamiento de información.
Los equipos de IA tienen a su disposición varias técnicas y algoritmos PEFT, cada uno con sus beneficios y especializaciones relativas. Muchas de las herramientas PEFT más populares pueden encontrar en Hugging Face y en otras muchas comunidades de GitHub.
Los adaptadores son una de las primeras técnicas PEFT que se aplican a los modelos de procesamiento de lenguaje natural (PLN). Los investigadores se esforzaron por superar el desafío de entrenar un modelo para múltiples tareas posteriores y, al mismo tiempo, minimizar los pesos del modelo. Los módulos adaptadores fueron la respuesta: pequeños complementos que insertan un conjunto de parámetros entrenables, específicos de la tarea en cada capa del transformador del modelo.
Introducida en 2021, la adaptación de rango bajo de modelos de lenguaje grandes(LoRA) emplea matrices de descomposición gemelas de rango bajo para minimizar los pesos del modelo y reducir aún más el subconjunto de parámetros entrenables.
QLoRA es una versión extendida de LoRA que cuantifica o estandariza el peso de cada parámetro previamente capacitado a solo 4 bits del peso típico de 32 bits. Como tal, QLoRA ofrece un ahorro significativo de memoria y permite ejecutar un LLM en una sola GPU.
Creado específicamente para los modelos de generación de lenguaje natural (NLG), el ajuste de prefijos agrega un vector continuo específico de la tarea, conocido como prefijo, a cada capa del transformador mientras mantiene todos los parámetros congelados. Como resultado, los modelos ajustados por prefijo almacenan mil veces menos parámetros que los modelos totalmente ajustados con un rendimiento comparable.
El ajuste de instrucciones simplifica el ajuste de prefijos y capacita los modelos inyectando instrucciones personalizadas en los datos de entrada o entrenamiento. Las instrucciones duras se crean manualmente, mientras que las instrucciones suaves son cadenas de números generadas por IA que extraen conocimientos del modelo base. Se descubrió que las instrucciones suaves superan a las instrucciones duras generadas por humanos durante el ajuste.
P-tuning es una variación de prompt-tuning diseñada para tareas de natural language understanding (NLU). En lugar de emplear mensajes creados manualmente, P-tuning introdujo el entrenamiento y la generación automatizados de mensajes que conducen a mensajes de entrenamiento más impactantes con el tiempo.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.