¿Qué son los parámetros de LLM?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

Definición de parámetros de LLM

Los parámetros de LLM son la configuración que controla y optimiza la salida y el comportamiento de un modelo de lenguaje grande (LLM). Los parámetros entrenables incluyen ponderaciones y sesgos, y se configuran a medida que un modelo de lenguaje grande (LLM) aprende de su conjunto de datos. Los hiperparámetros son externos al modelo, guían su proceso de aprendizaje, determinan su estructura y dan forma a su salida.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Tipos de parámetros de LLM

Los parámetros de LLM se pueden clasificar en tres categorías principales:

Ponderaciones

Sesgos

Hiperparámetros

Pesos

Las ponderaciones son valores numéricos que representan la importancia que el LLM asigna a una entrada específica. No todas las entradas son tratadas por igual por el modelo de inteligencia artificial cuando genera respuestas. Cuanto mayor sea la ponderación de una entrada, más relevante será para la salida del modelo.

Los ajustes de parámetros entrenables, como las ponderaciones, se configuran mediante el algoritmo de aprendizaje de un modelo durante el proceso de entrenamiento. El algoritmo de aprendizaje mide el rendimiento del modelo de machine learning (ML) con una función de pérdida, que intenta minimizar el error mediante la optimización de los parámetros del modelo.

Dentro de las redes neuronales, las ponderaciones son multiplicadores que determinan la intensidad de la señal de una capa de neuronas a la siguiente. Las señales deben alcanzar el umbral de intensidad de la función de activación para avanzar a través de la red. Como tal, los ponderaciones afectan directamente la forma en que una red propaga los datos a través de sus capas.

La retropropagación se utiliza para calcular cómo un cambio en los valores de ponderación afecta el rendimiento del modelo.

Sesgos

Al igual que las ponderaciones, los sesgos también se configuran automáticamente durante el entrenamiento del modelo de IA. Los sesgos son valores constantes que se agregan al valor de una señal de las capas anteriores. Los modelos utilizan sesgos para permitir que las neuronas se activen en condiciones en las que las ponderaciones por sí solas podrían no ser suficientes para pasar a través de la función de activación.

Los sesgos permiten que los modelos sean más flexibles. Los modelos pueden aprender de los datos incluso si las entradas ponderadas no alcanzan el umbral de activación. Al igual que las ponderaciones, los sesgos se ajustan con retropropagación durante el entrenamiento para optimizar el rendimiento del modelo y minimizar los errores.

La combinación de ponderaciones y sesgos en los LLM puede dar como resultado modelos con miles de millones de parámetros. Durante el proceso de ajuste, cuando un LLM previamente entrenado se entrena aún más para tareas posteriores, sus ponderaciones y sesgos se ajustan con datos de entrenamiento específicos del dominio.

Hiperparámetros

Los hiperparámetros son configuraciones externas que determinan el comportamiento, la forma, el tamaño, el uso de recursos y otras características de un modelo. El proceso de ajuste de hiperparámetros o ajuste de modelos utiliza algoritmos para descubrir la combinación óptima de hiperparámetros para un mejor rendimiento. Junto con ingeniería rápida, el ajuste de hiperparámetros es uno de los principales métodos de personalización de LLM.

Los hiperparámetros de arquitectura, como el número de capas y la dimensión de las capas ocultas, configuran el tamaño y la forma de un modelo.

Los hiperparámetros de entrenamiento, como la tasa de aprendizaje y el tamaño del lote, guían el proceso de entrenamiento del modelo. Los hiperparámetros de entrenamiento afectan en gran medida el rendimiento del modelo y si un modelo cumple con los puntos de referencia de LLM requeridos.

Los hiperparámetros de inferencia, como la temperatura y el muestreo top-p, deciden cómo un modelo de IA generativa produce sus resultados.

La memoria y los hiperparámetros de cómputo, como la ventana de contexto, el número máximo de tokens en una secuencia de resultados y las secuencias de parada, equilibran el rendimiento y las capacidades del modelo con los requisitos de recursos.

Los hiperparámetros de calidad de salida, como la penalización por presencia y la penalización por frecuencia, ayudan a los LLM a generar resultados más variados e interesantes, al tiempo que controlan los costos.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Ir al episodio

Parámetros notables de LLM

La cantidad de parámetros en modelos más grandes, redes neuronales complejas como GPT-4 y GPT-3, Llama, Gemini y otros modelos transformadores, puede llegar a miles de millones. Los modelos más pequeños tienen menos parámetros, lo que los hace menos exigentes en términos computacionales, pero también menos capaces de discernir patrones y relaciones complejas.

Todos los parámetros ayudan a determinar cómo el modelo da sentido a los datos del mundo real que encuentra. Pero los parámetros que afectan más directamente la salida del modelo son sus hiperparámetros. Un beneficio de los modelos de código abierto es que su configuración de hiperparámetros es visible.

El ajuste de hiperparámetros es un pilar importante de la personalización de LLM: ajustar un modelo para tareas específicas.

Entre los hiperparámetros más significativos de un modelo se encuentran:

Número de capas

Ventana de contexto

Temperatura

Top-p (muestreo de núcleos)

Top-k

Número de token (tokens máximos)

Tasa de aprendizaje

Penalización de frecuencia

Penalización por presencia

Secuencia de parada

Número de capas

El número de capas en una red neuronal es un hiperparámetro crucial para establecer el tamaño y la complejidad del modelo. Las redes neuronales están hechas de capas de neuronas o nodos. Cuantas más capas haya entre la capa de entrada inicial y la capa de salida final, más complejo será el modelo.

Pero la complejidad no siempre es buena. Un modelo que tiene demasiadas capas para una tarea que no las necesita puede sufrir un sobreajuste y desperdiciar recursos computacionales. Mientras tanto, un modelo con capas insuficientes no podrá capturar los patrones, las relaciones y las distribuciones en conjuntos de datos complejos.

Ventana de contexto

El hiperparámetro de la ventana de contexto es relevante para cualquier modelo construido sobre la arquitectura transformadora, como el código abierto LLM Llama. La ventana de contexto es el número máximo de tokens que el modelo puede desplegar mientras mantiene la coherencia en toda la secuencia de entrada.

La ventana de contexto también determina la duración de la conversación que un modelo puede mantener sin perder de vista el contenido anterior. Las ventanas de contexto más grandes conducen a una mayor precisión, menos alucinaciones y la capacidad de procesar documentos más grandes o tener conversaciones más largas.

Sin embargo, las ventanas de contexto grandes también requieren un mayor grado de recursos computacionales y pueden extender el tiempo de procesamiento para la generación de respuestas.

Temperatura

El hiperparámetro de temperatura de LLM es similar a un dial de aleatoriedad o creatividad. Elevar la temperatura aumenta la distribución de probabilidad de las siguientes palabras que aparecen en la salida del modelo durante la generación de texto.

Un ajuste de temperatura de 1 utiliza la distribución de probabilidad estándar para el modelo. Las temperaturas superiores a 1 aplanan la distribución de probabilidad, lo que incentiva al modelo a seleccionar una gama más amplia de tokens. Por el contrario, las temperaturas inferiores a 1 amplían la distribución de probabilidad, lo que hace que sea más factible que el modelo seleccione el siguiente token más probable.

Un valor de temperatura más cercano a 1.0, como 0.8, significa que el LLM se vuelve más creativo en sus respuestas, pero con potencialmente menos previsibilidad. Mientras tanto, una temperatura más baja de 0.2 producirá respuestas más deterministas. Un modelo con baja temperatura ofrece resultados predecibles, aunque estables. Las temperaturas más altas cercanas a 2.0 pueden comenzar a producir resultados sin sentido.

El caso de uso informa el valor de temperatura ideal para un LLM. Un chatbot diseñado para ser entretenido y creativo, como ChatGPT, necesita una temperatura más alta para crear texto similar al humano. Una aplicación de resúmenes de texto en un campo altamente regulado, como el derecho, el estado o las finanzas, requiere lo contrario: sus resúmenes de texto generados deben cumplir requisitos estrictos.

Top-p (muestreo de núcleos)

Al igual que la temperatura, el muestreo top-p también afecta la diversidad de palabras en los resultados de texto generados. Top-p funciona estableciendo un umbral de probabilidad p para el siguiente token en una secuencia de salida. El modelo puede generar respuestas mediante el uso de tokens dentro del límite de probabilidad.

Con el muestreo top-p, los tokens se clasifican en orden de probabilidad. Los tokens con mayor probabilidad de aparecer a continuación en la secuencia tienen una puntuación más alta, y lo contrario ocurre con los tokens menos probables. El modelo reúne un grupo de tokens siguientes potenciales hasta que la puntuación p acumulada alcanza el umbral establecido, luego selecciona aleatoriamente un token de ese grupo.

Los umbrales p más altos se traducen en resultados más diversos, mientras que los umbrales más bajos preservan la precisión y la coherencia.

Muestreo de temperatura frente a muestreo top-p

La diferencia entre el muestreo de temperatura y el muestreo top-p es que, mientras que la temperatura ajusta la distribución de probabilidad de los tokens potenciales, el muestreo top-p limita la selección de tokens a un grupo finito.

Top-k

El hiperparámetro top-k es otra configuración centrada en la diversidad. El valor k establece el límite para el número de términos que pueden considerarse como el siguiente en la secuencia. Los términos se ordenan en función de la probabilidad y los términos top k se eligen como candidatos.

Top-p frente a top-k

Top-p limita el grupo de tokens hasta un total de probabilidad p establecido, mientras que top-k limita el grupo a los k términos más probables.

Número de token (tokens máximos)

El hiperparámetro token number o max tokens establece un límite superior para la longitud de resultados de token. Los valores de número de token más pequeños son ideales para tareas rápidas, como conversaciones de chatbot y resumen, tareas que pueden manejar modelos de lenguaje pequeños, así como LLM.

Los valores de número de token más altos son mejores para cuando se necesitan resultados más largos, como si se intenta usar un LLM para vibe coding.

Tasa de aprendizaje

La tasa de aprendizaje es un hiperparámetro crítico que afecta la velocidad a la que el modelo ajusta sus ponderaciones y sesgos durante el entrenamiento y el ajuste. Estos procesos a menudo emplean un algoritmo de aprendizaje conocido como descenso de gradiente.

Un algoritmo de descenso de gradiente intenta minimizar una función de pérdida que mide el error de las predicciones de un modelo. En cada iteración del entrenamiento, el algoritmo actualiza las ponderaciones del modelo para mejorar idealmente el rendimiento con el siguiente lote de datos.

La tasa de aprendizaje controla el grado en que se actualizan las ponderaciones. Una mayor tasa de aprendizaje conduce a mayores aumentos, lo que acelera el entrenamiento con el riesgo de superar un mínimo local. Las tasas de aprendizaje más bajas hacen ajustes más sutiles, pero requieren más iteraciones para alcanzar un mínimo e incluso pueden estancarse.

Un método eficaz para gestionar la tasa de aprendizaje es comenzar a entrenar con un valor más alto y reducir la tasa de aprendizaje a medida que el modelo se acerca a un mínimo local de su función de pérdida.

Penalización de frecuencia

El hiperparámetro de penalización de frecuencia ayuda a evitar que los modelos utilicen en exceso términos dentro de los mismos resultados. Una vez que aparece un término en la salida, la penalización de frecuencia disuade al modelo de reutilizarlo más tarde.

Los modelos asignan puntuaciones a cada token conocidas como logits y utilizan logits para calcular valores de probabilidad. Las penalizaciones de frecuencia reducen linealmente el valor logit de un término cada vez que se repite, lo que hace que sea menos probable que se elija la próxima vez. Los valores de penalización de frecuencia más altos reducen el logit en una cantidad mayor por aplicación.

Debido a que se disuade al modelo de repetir términos, debe elegir otros términos, lo que da como resultado opciones de palabras más diversas en el texto generado.

Penalización por repetición

La penalización por repetición es similar a la penalización por frecuencia, excepto que es exponencial en lugar de lineal. La penalización por repetición reduce exponencialmente el logit de un término cada vez que se reutiliza, lo que lo convierte en un desaliento más fuerte que la penalización por frecuencia. Por esta razón, se recomiendan valores de penalización de repetición más bajos.

Penalización por presencia

La penalización por presencia es un hiperparámetro relacionado que funciona de manera similar a la penalización por frecuencia, excepto que solo se aplica una vez. La penalización por presencia reduce el valor logit de un término en la misma cantidad, independientemente de la frecuencia con la que ese término esté presente en la salida, siempre que aparezca al menos una vez.

Si el término oso aparece en el resultado 10 veces y el término zorro aparece una vez, oso tiene una penalización por frecuencia más alta que zorro. Sin embargo, tanto el oso como el zorro comparten la misma penalización por presencia.

Secuencia de parada

La secuencia de parada es una cadena preestablecida de tokens que, cuando aparece, hace que el modelo finalice la secuencia de resultados. Por ejemplo, si un modelo está diseñado para generar una sola oración a la vez, la secuencia de parada podría ser un punto.

Las secuencias de parada mantienen la concisión de la respuesta sin afectar la forma en que el modelo genera resultados hasta el punto de parada. Debido a que truncan las respuestas del modelo, las secuencias de parada también ayudan a ahorrar en costos de token al conectarse a LLM a través de API.

Optimización de parámetros de LLM

Optimizar los parámetros internos y entrenables de un modelo (sus ponderaciones y sesgos) es esencial para un rendimiento sólido. Una vez que un modelo ha sido equipado con los hiperparámetros óptimos, sus diseñadores tienen una variedad de métodos a su disposición para ayudar a dar forma a los parámetros internos de LLM.

El ajuste adapta las ponderaciones y sesgos de un modelo para tareas específicas. El ajuste eficiente de parámetros (PEFT) congela la mayoría de los parámetros mientras cambia un pequeño subconjunto relevante.

El aprendizaje por transferencia es una amplia escuela de técnicas de optimización de modelos que se centran en el uso del conocimiento previo de un modelo para mejorar el rendimiento en nuevas tareas.

La cuantificación simplifica todas las matemáticas dentro de un modelo, haciéndolo más pequeño y eficiente sin dejar de representar los mismos datos.

La detención temprana evita el sobreajuste al abortar el proceso de entrenamiento cuando deja de generar ganancias notables en el rendimiento.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto para preparar conjuntos de datos e implementar modelos fundacionales.