Tiempo de lectura
Los parámetros del modelo son las variables de configuración internas de un modelo de machine learning que controlan cómo procesa los datos y realiza predicciones. Los valores de los parámetros pueden determinar si los resultados de un modelo de inteligencia artificial (IA) reflejan los resultados del mundo real: cómo transforma la entrada en resultados, como texto o imágenes generados.
Los algoritmos de machine learning estiman el valor de los parámetros de un modelo durante el entrenamiento del mismo. El algoritmo de aprendizaje u optimización ajusta los parámetros para un rendimiento óptimo del modelo minimizando una función de error, coste o pérdida.
Los parámetros del modelo a menudo se confunden con los hiperparámetros. Ambos tipos de parámetros controlan el comportamiento de un modelo, pero con diferencias significativas.
Los parámetros del modelo son internos a un modelo y se estiman durante el proceso de aprendizaje en respuesta a los datos de entrenamiento. El algoritmo de aprendizaje del modelo actualiza los valores de los parámetros durante el entrenamiento. Los parámetros controlan cómo reacciona un modelo a datos no vistos; por ejemplo, cómo un modelo predictor hace predicciones después de la implementación.
Los hiperparámetros del modelo son externos a un modelo y se establecen antes del entrenamiento mediante el ajuste de hiperparámetros. Algunos hiperparámetros determinan el comportamiento del modelo durante el entrenamiento, como la tasa de aprendizaje durante el descenso del gradiente o el número de épocas del proceso de entrenamiento.
Otros hiperparámetros son responsables de la forma y la estructura del modelo, como el número de árboles de decisión en un bosque aleatorio, de clústers en clustering de medias k o de capas ocultas en una redes neuronales.
No todos los modelos de deep learning comparten el mismo conjunto de parámetros del modelo. Los modelos de lenguaje de gran tamaño (LLM) utilizan ponderaciones y sesgos para procesar los datos. Mientras tanto, losmodelos de regresión lineal y las máquinas de vectores de soporte (SVM) tienen sus propios parámetros respectivos, como los coeficientes del modelo lineal o los vectores de soporte.
Los pesos son los botones de control o ajustes fundamentales de un modelo y determinan cómo un modelo evalúa nuevos datos y realiza predicciones. Son los parámetros básicos de un LLM y se aprenden durante el entrenamiento. Los LLM pueden tener millones o incluso miles de millones de ponderaciones.
Los pesos son variables numéricas que establecen la importancia relativa de las características del conjunto de datos en el resultado. En una red neuronal, los pesos determinan la fuerza de las conexiones entre neuronas: el grado en el que la salida de una neurona afecta la entrada de la siguiente neurona.
Los sesgos permiten a las redes neuronales ajustar los outputs independientemente de las ponderaciones del modelo y las entradas. Mientras que un peso es una configuración variable, los sesgos son constantes que actúan como umbrales o compensaciones. Los sesgos ayudan a los modelos a generalizar y capturar patrones y tendencias más grandes en un conjunto de datos.
Las redes neuronales utilizan una función de activación para determinar si una neurona se activa y genera una salida. Los sesgos ajustan esta función, añadiendo flexibilidad al permitir que las neuronas se activen independientemente de si la suma de sus entradas es suficiente para desencadenar una activación.
Los parámetros de sesgo son un concepto independiente del sesgo algorítmico, que es cuando un modelo produce resultados discriminatorios. El sesgo también es el término para el tipo de error que resulta de que el modelo haga suposiciones incorrectas sobre los datos, lo que lleva a una divergencia entre los valores previstos y los reales.
Como dan forma al proceso de entrenamiento, muchos hiperparámetros afectan a la configuración final de los parámetros de un modelo. Pueden incluir:
Época: el número de iteraciones durante las que todo el conjunto de datos de entrenamiento pasa por el modelo durante el entrenamiento.
Tamaño del lote: la cantidad de datos de entrenamiento en cada ronda de entrenamiento. Los modelos actualizan iterativamente sus ponderaciones y sesgos después de cada lote.
Tasa de aprendizaje: el grado en que un modelo puede actualizar sus ponderaciones.
Impulso: la tendencia de un modelo a actualizar sus ponderaciones en la misma dirección que las actualizaciones anteriores, en lugar de invertir en la otra dirección.
Los parámetros desempeñan un papel crucial en el rendimiento del modelo. Influyen en cómo las neuronas de una red procesan los datos y generan resultados. En la ciencia de datos, los datos de entrada se componen de cualidades y características conocidas como características. Pero no todas las características son igualmente relevantes para comprender los datos y hacer buenas predicciones.
Considere un modelo diseñado para clasificar a los animales como mamíferos o peces. Dado que tanto los mamíferos como los peces son vertebrados, la característica "vertebrado" no afecta a las predicciones del modelo. Por el contrario, dado que todos los peces tienen branquias y ningún mamífero las tiene, la característica "tiene branquias" es mucho más importante para el modelo.
Los pesos que corresponden a la información más relevante crean conexiones más fuertes entre las neuronas pertinentes. A su vez, las conexiones más fuertes aumentan la importancia de la información que se transmite entre esas neuronas en comparación con otras.
Los parámetros también afectan al rendimiento del modelo desde una perspectiva práctica:
El sobreajuste ocurre cuando un modelo se ajusta demasiado a sus datos de entrenamiento y no puede generalizarse a nuevos datos. El sobreajuste puede ser más probable o grave cuando un modelo tiene más parámetros: el modelo se adapta a un conjunto de datos de entrenamiento específico. Los diseñadores de modelos utilizan técnicas como la validación cruzada y la regularización de abandonos para mitigar el sobreajuste.
Los modelos con más parámetros pueden gestionar tareas más complejas. El mayor número de parámetros proporciona al modelo una comprensión más matizada de los datos. Pero como se mencionó anteriormente, esto puede conducir a un sobreajuste.
Más parámetros aumentan el tamaño del modelo y requieren más recursos computacionales. Los potentes modelos detrás de las principales aplicaciones de IA generativa, como ChatGPT, tienen miles de millones de parámetros y consumen enormes cantidades de agua y electricidad, mientras que su entrenar cuesta millones de dólares.
En los enfoques tradicionales de machine learning, los modelos establecen parámetros a través de un proceso de entrenamiento en dos etapas que consiste en propagación hacia adelante y hacia atrás.
La propagación hacia adelante es el movimiento de datos a través del modelo. Las neuronas reciben información, calculan los pesos de esas entradas y añaden sesgos. La función de activación determina entonces si ese valor es suficiente para desencadenar la activación de la neurona. En caso afirmativo, la neurona se activa y transmite las salidas a través de la red. La cadena continúa hasta que el modelo genera una salida final.
La segunda etapa es la propagación hacia atrás, o retropropagación. Esta fase calcula el error del modelo: la discrepancia entre su resultado y los valores del mundo real. Para ello, un algoritmo de optimización de descenso de gradiente mide el gradiente de la función de pérdida. El modelo actualiza sus ponderaciones y sesgos en respuesta al gradiente, con el objetivo de minimizar la función de pérdida y generar mejores predicciones.
El proceso de propagación hacia adelante y hacia atrás continúa hasta que se haya minimizado con éxito la función de pérdida, lo que indica un rendimiento óptimo del modelo. El rendimiento del modelo se evalúa en función de métricas de evaluación LLM, como la coherencia del texto generado.
Los investigadores de machine learning han identificado una serie de técnicas que pueden ayudar a los modelos a llegar a la mejor configuración de parámetros.
El fine-tuning adapta un modelo entrenado a las tareas posteriores entrenándolo aún más en conjuntos de datos específicos de dominio más pequeños. Los modelos ajustados actualizan sus parámetros lo suficiente como para aprender nuevas tareas, al tiempo que conservan la capacidad de generalizar.
La regularización añade una penalización a la función de pérdida para evitar que el modelo cambie sus ponderaciones demasiado.
La detención temprana finaliza la validación cuando un modelo ya no muestra signos de mejora, conservando recursos y minimizando la posibilidad de rendimientos decrecientes.
El aprendizaje por transferencia anima a los modelos a aplicar conocimientos previos a nuevas tareas, disminuyendo las posibilidades de que olvide lo que ya ha aprendido.
El aislamiento de parámetros congela ciertos parámetros cuando se entrenan modelos para nuevas tareas, impidiendo que se actualicen y perdiendo potencialmente los conocimientos previos.
La repetición expone periódicamente un modelo a un "búfer de memoria" de datos anteriores mientras se entrena para nuevas tareas. El búfer se mezcla con los nuevos datos para actualizar la memoria del modelo y evitar ajustes de peso exagerados.
La cuantificación sustituye los pesos de un modelo entrenado por valores menos precisos, lo que reduce sus requisitos computacionales y preserva el conocimiento. En general, la cuantificación es la práctica de asignar formatos de alta precisión a formatos de menor precisión.
La validación cruzada divide los datos de entrenamiento en subconjuntos conocidos como pliegues, uno para el entrenamiento y otro para las pruebas. El proceso se repite varias veces con diferentes agrupaciones de los datos.
El ajuste de hiperparámetros es el proceso de optimización de los hiperparámetros de un modelo. Los hiperparámetros óptimos conducen a valores óptimos de los parámetros del modelo después del entrenamiento.