¿Qué son los parámetros de LLM?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

Parámetros de LLM, definidos

Los parámetros de LLM son los ajustes que controlan y optimizan el resultado y el comportamiento de un modelo de lenguaje de gran tamaño (LLM). Los parámetros entrenables incluyen pesos y sesgos y se configuran a medida que un modelo de lenguaje de gran tamaño (LLM) aprende de su conjunto de datos. Los hiperparámetros son externos al modelo, guían su proceso de aprendizaje, determinan su estructura y dan forma a su resultado.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Tipos de parámetros LLM

Los parámetros de LLM se pueden clasificar en tres categorías principales:

Pesos

Sesgos

Hiperparámetros

Pesos

Los pesos son valores numéricos que representan la importancia que el LLM asigna a una entrada específica. No todas las entradas son tratadas por igual por el modelo de inteligencia artificial (IA) cuando se generan respuestas. Cuanto mayor sea el peso de una entrada, más relevante es para el resultado del modelo.

Los ajustes de parámetros entrenables, como los pesos, se configuran mediante el algoritmo de aprendizaje de un modelo durante el proceso de entrenamiento. El algoritmo de aprendizaje mide el rendimiento del modelo de machine learning (ML) con una función de pérdida, que intenta minimizar el error mediante la optimización de los parámetros del modelo.

Dentro de las redes neuronales, los pesos son multiplicadores que determinan la intensidad de la señal de una capa de neuronas a la siguiente. Las señales deben alcanzar el umbral de intensidad de la función de activación para avanzar por la red. Como tal, los pesos afectan directamente a la forma en que una red propaga los datos a través de sus capas.

La retropropagación se utiliza para calcular cómo un cambio en los valores de pesos afecta al rendimiento del modelo.

Sesgos

Al igual que los pesos, los sesgos también se configuran automáticamente durante el entrenamiento del modelo de IA. Los sesgos son valores constantes que se suman al valor de una señal de las capas anteriores. Los modelos utilizan sesgos para permitir que las neuronas se activen en condiciones en las que los pesos por sí solos podrían no ser suficientes para pasar a través de la función de activación.

Los sesgos permiten que los modelos sean más flexibles. Los modelos pueden aprender de los datos incluso si las entradas ponderadas no alcanzan el umbral de activación. Al igual que los pesos, los sesgos se ajustan con retropropagación durante el entrenamiento para optimizar el rendimiento del modelo y minimizar los errores.

La combinación de pesos y sesgos en los LLM puede dar lugar a modelos con miles de millones de parámetros. Durante el proceso de fine-tuning, cuando un LLM preentrenado se entrena aún más para tareas posteriores, sus pesos y sesgos se ajustan con datos de entrenamiento específicos del dominio.

Hiperparámetros

Los hiperparámetros son configuraciones externas que determinan el comportamiento, la forma, el tamaño, el uso de recursos y otras características de un modelo. El proceso de ajuste de hiperparámetros o ajuste de modelos utiliza algoritmos para descubrir la combinación óptima de hiperparámetros para un mejor rendimiento. Junto con el prompt engineering, el ajuste de hiperparámetros es uno de los principales métodos de personalización de LLM.

Los hiperparámetros de la arquitectura, como el número de capas y la dimensión de las capas ocultas, configuran el tamaño y la forma de un modelo.

Los hiperparámetros de entrenamiento, como la tasa de aprendizaje y el tamaño del lote, guían el proceso de entrenamiento del modelo. Los hiperparámetros de entrenamiento afectan en gran medida al rendimiento del modelo y a si un modelo cumple con los puntos de referencia LLM requeridos.

Hiperparámetros de inferencia, como la temperatura y el muestreo top-p, deciden cómo un modelo de IA generativa produce sus resultados.

Los hiperparámetros de memoria y computación, como la ventana de contexto, el número máximo de tokens en una secuencia de salida y las secuencias de parada, equilibran el rendimiento y las capacidades del modelo con los requisitos de recursos.

Los hiperparámetros de calidad de resultados, como la penalización por presencia y la penalización por frecuencia, ayudan a los LLM a generar resultados más variados e interesantes a la vez que controlan los costes.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables capaces de desbloquear nuevos ingresos, reducir costes y aumentar la productividad, y utilice nuestra guía para profundizar más en el tema.

Ir al episodio

Parámetros notables de LLM

El número de parámetros en modelos más grandes, redes neuronales complejas como GPT-4 y GPT-3, Llama, Gemini y otros modelos de transformador, puede llegar a miles de millones. Los modelos más pequeños tienen menos parámetros, lo que los hace menos exigentes en cuanto a recursos computacionales, pero también menos capaces de discernir patrones y relaciones complejos.

Todos los parámetros ayudan a determinar cómo el modelo da sentido a los datos del mundo real que encuentra. Pero los parámetros que afectan más directamente al resultado del modelo son sus hiperparámetros. Uno de los beneficios de los modelos de código abierto es que sus ajustes de hiperparámetros son visibles.

El ajuste de hiperparámetros es un pilar importante de la personalización de LLM: ajustar un modelo para tareas específicas.

Entre los hiperparámetros más significativos de un modelo se encuentran:

Número de capas

Ventana de contexto

Temperatura

Top-p (muestreo de núcleos)

Top-k

Número de token (máximo de tokens)

Índice de aprendizaje

Penalización de frecuencia

Penalización por presencia

Secuencia de parada

Número de capas

El número de capas de una red neuronal es un hiperparámetro crucial para establecer el tamaño y la complejidad del modelo. Las redes neuronales están formadas por capas de neuronas o nodos. Cuantas más capas haya entre la capa de entrada inicial y la capa de resultado final, más complejo será el modelo.

Pero la complejidad no siempre es buena. Un modelo que tiene demasiadas capas para una tarea que no las necesita puede sufrir un sobreajuste y desperdiciar recursos computacionales. Mientras tanto, un modelo con capas insuficientes no podrá capturar los patrones, relaciones y distribuciones en conjuntos de datos complejos.

Ventana de contexto

El hiperparámetro de la ventana de contexto es relevante para cualquier modelo construido sobre la arquitectura del transformador, como el LLM Llama-2 de código abierto. La ventana de contexto es el número máximo de tokens que el modelo puede desplegar manteniendo la coherencia en toda la secuencia de entrada.

La ventana contextual también determina la duración de la conversación que un modelo puede mantener sin perder de vista el contenido anterior. Las ventanas de contexto más grandes dan lugar a una mayor precisión, menos alucinaciones y la capacidad de procesar documentos más grandes o tener conversaciones más largas.

Sin embargo, las ventanas de contexto grandes también requieren un mayor grado de recursos computacionales y pueden ampliar el tiempo de procesamiento para la generación de respuestas.

Temperatura

El hiperparámetro de temperatura de LLM es similar a un dial de aleatoriedad o creatividad. El aumento de la temperatura aumenta la distribución de probabilidad de las siguientes palabras que aparecen en el resultado del modelo durante la generación de texto.

Un ajuste de temperatura de 1 utiliza la distribución de probabilidad estándar para el modelo. Las temperaturas superiores a 1 aplanan la distribución de probabilidad, lo que anima al modelo a seleccionar una gama más amplia de tokens. Por el contrario, las temperaturas inferiores a 1 amplían la distribución de probabilidad, lo que hace que el modelo tenga más probabilidades de seleccionar el siguiente token más probable.

Un valor de temperatura más cercano a 1,0, como 0,8, significa que el LLM se vuelve más creativo en sus respuestas, pero con una previsibilidad potencialmente menor. Mientras tanto, una temperatura inferior a 0,2 producirá respuestas más deterministas. Un modelo con baja temperatura ofrece resultados predecibles, aunque serios. Las temperaturas más altas cercanas a 2.0 pueden comenzar a producir resultados sin sentido.

El caso de uso informa el valor de temperatura ideal para un LLM. Un chatbot diseñado para ser entretenido y creativo, como ChatGPT, necesita una temperatura más alta para crear texto similar al humano. Una aplicación de resúmenes de texto en un campo altamente regulado como el derecho, la salud o las finanzas requiere lo contrario: sus resúmenes de texto generados deben cumplir requisitos estrictos.

Top-p (muestreo de núcleos)

Al igual que la temperatura, el muestreo top-p también afecta a la diversidad de palabras en las salidas de texto generadas. Top-p funciona estableciendo un umbral de probabilidad p para el siguiente token en una secuencia de resultados. El modelo puede generar respuestas utilizando tokens dentro del límite de probabilidad.

Con el muestreo top-p, los tokens se clasifican en orden de probabilidad. Los tokens con una mayor probabilidad de aparecer a continuación en la secuencia tienen una puntuación más alta, y lo contrario ocurre con los tokens menos probables. El modelo reúne un grupo de tokens siguientes potenciales hasta que la puntuación p acumulada alcanza el umbral establecido, entonces selecciona aleatoriamente un token de ese grupo.

Los umbrales p más altos arrojan resultados más diversos, mientras que los umbrales más bajos preservan la precisión y la coherencia.

Muestreo de temperatura vs. top-p

La diferencia entre el muestreo de temperatura y el muestreo top-p es que, mientras que la temperatura ajusta la distribución de probabilidad de los tokens potenciales, el muestreo top-p limita la selección de token a un grupo finito.

Top-k

El hiperparámetro top-k es otra configuración centrada en la diversidad. El valor k establece el límite para el número de términos que pueden considerarse como el siguiente en la secuencia. Los términos se ordenan en función de la probabilidad y los k términos principales se eligen como candidatos.

Top-p vs. top-k

Top-p limita el conjunto de token hasta un total de probabilidad p establecido, mientras que top-k limita el conjunto a los términos top k más probables.

Número de token (tokens máx.)

El hiperparámetro número de token o max tokens establece un límite superior para la longitud del token de salida. Los valores numéricos de token más pequeños son ideales para tareas rápidas como conversaciones de chatbot y resúmenes, tareas que pueden ser manejadas tanto por modelos de lenguaje pequeños como por LLM.

Los valores de número de token más altos son mejores para cuando se necesitan resultados más largos, como si se intenta utilizar un LLM para el vibe coding.

Índice de aprendizaje

La tasa de aprendizaje es un hiperparámetro crítico que afecta a la velocidad a la que el modelo ajusta sus pesos y sesgos durante el entrenamiento y el fine-tuning. Estos procesos a menudo utilizan un algoritmo de aprendizaje conocido como descenso de gradiente.

Un algoritmo de descenso de gradiente intenta minimizar una función de pérdida que mide el error de las predicciones de un modelo. En cada iteración del entrenamiento, el algoritmo actualiza los pesos del modelo para mejorar idealmente el rendimiento con el siguiente lote de datos.

La tasa de aprendizaje controla el grado en que se actualizan los pesos. Una mayor tasa de aprendizaje conduce a mayores aumentos, lo que acelera la formación con el riesgo de superar un mínimo local. Las tasas de aprendizaje más bajas hacen ajustes más sutiles, pero requieren más iteraciones para alcanzar un mínimo e incluso pueden estancarse.

Un método eficaz para gestionar la tasa de aprendizaje es comenzar a entrenar con un valor más alto y reducir la tasa de aprendizaje a medida que el modelo se acerca a un mínimo local de su función de pérdida.

Penalización de frecuencia

El hiperparámetro de penalización de frecuencia ayuda a evitar que los modelos utilicen en exceso términos dentro de los mismos resultados. Una vez que aparece un término en el resultado, la penalización de frecuencia disuade al modelo de reutilizarlo más tarde.

Los modelos asignan puntuaciones a cada token conocidas como logits y utilizan logits para calcular valores de probabilidad. Las penalizaciones de frecuencia reducen linealmente el valor logit de un término cada vez que se repite, lo que hace que sea cada vez menos probable que se elija la próxima vez. Los valores de penalización de frecuencia más altos reducen el logit en una cantidad mayor por aplicación.

Dado que se disuade al modelo de repetir términos, debe elegir otros términos, lo que da como resultado opciones de palabras más diversas en el texto generado.

Penalización por repetición

La penalización por repetición es similar a la penalización por frecuencia, excepto que es exponencial en lugar de lineal. La penalización por repetición reduce exponencialmente el logit de un término cada vez que se reutiliza, lo que la convierte en un desaliento más fuerte que la penalización por frecuencia. Por este motivo, se recomiendan valores de penalización por repetición más bajos.

Penalización por presencia

La penalización de presencia es un hiperparámetro relacionado que funciona de manera similar a la penalización de frecuencia, excepto que solo se aplica una vez. La penalización por presencia reduce el valor logit de un término en la misma cantidad, independientemente de la frecuencia con la que ese término esté presente en el output, siempre que aparezca al menos una vez.

Si el término oso aparece en el resultado diez veces, y el término zorro aparece una vez, oso tiene una penalización de frecuencia más alta que zorro. Sin embargo, tanto el oso como el zorro comparten la misma penalización por presencia.

Secuencia de parada

La secuencia de parada es una cadena preestablecida de tokens que, cuando aparece, hace que el modelo finalice la secuencia de resultado. Por ejemplo, si un modelo está diseñado para generar una sola frase cada vez, la secuencia de parada podría ser un punto.

Las secuencias de parada mantienen la concisión de la respuesta sin afectar a la forma en que el modelo genera el resultado hasta el punto de parada. Debido a que truncan las respuestas del modelo, las secuencias de detención también ayudan a ahorrar en costos de token al conectarse a LLM a través de API.

Optimización de parámetros de LLM

La optimización de los parámetros internos y entrenables de un modelo (sus pesos y sesgos) es esencial para un rendimiento sólido. Una vez que un modelo ha sido equipado con los hiperparámetros óptimos, sus diseñadores tienen a su disposición una serie de métodos para ayudar a dar forma a los parámetros internos de LLM.

El fine-tuning ajusta los pesos y sesgos de un modelo para tareas específicas. El fine-tuning eficiente en parámetros (PEFT) congela la mayoría de los parámetros mientras cambia un pequeño subconjunto relevante.

El aprendizaje por transferencia es una amplia escuela de técnicas de optimización de modelos que se centran en el uso de los conocimientos previos de un modelo para mejorar el rendimiento en nuevas tareas.

La cuantificación simplifica todas las matemáticas dentro de un modelo, haciéndolo más pequeño y eficiente sin dejar de representar los mismos datos.

La detención temprana evita el sobreajuste al abortar el proceso de entrenamiento cuando deja de obtener mejoras de rendimiento notables.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto en la preparación de conjuntos de datos y el empleo de modelos fundacionales.