Tiempo de lectura
Los parámetros del modelo son las variables de configuración internas de un modelo de machine learning que controlan cómo procesa los datos y hace predicciones. Los valores de los parámetros pueden determinar si los resultados de un modelo de IA reflejan resultados del mundo real: cómo transforma la entrada en resultados, como texto o imágenes generados.
Algoritmos de machine learning estiman el valor de los parámetros de un modelo durante el entrenamiento del modelo. El algoritmo de aprendizaje u optimización ajusta los parámetros para un rendimiento óptimo del modelo minimizando una función de error, costo o pérdida .
Los parámetros del modelo a menudo se confunden con los hiperparámetros. Ambos tipos de parámetros controlan el comportamiento de un modelo, pero con diferencias significativas.
Los parámetros del modelo son internos a un modelo y se estiman durante el proceso de aprendizaje en respuesta a los datos de entrenamiento. El algoritmo de aprendizaje del modelo actualiza los valores de los parámetros durante el entrenamiento. Los parámetros controlan cómo reacciona un modelo a datos no vistos; por ejemplo, cómo un modelo predictor hace predicciones posteriores al despliegue.
Los hiperparámetros del modelo son externos a un modelo y se establecen antes del entrenamiento mediante el ajuste de hiperparámetros. Algunos hiperparámetros determinan el comportamiento del modelo durante el entrenamiento, como la tasa de aprendizaje durante el descenso del gradiente o el número de épocas del proceso de entrenamiento.
Otros hiperparámetros son responsables de la forma y la estructura del modelo, como el número de árboles de decisión en un bosque aleatorio, de clústeres en clustering de medias k o de capas ocultas en unas redes neuronales.
No todos los modelos de aprendizaje profundo comparten el mismo conjunto de parámetros del modelo. Los modelos de lenguaje de gran tamaño (LLM) utilizan ponderaciones y sesgos para procesar los datos. Mientras tanto, los modelos de regresión lineal y las máquinas de vectores de soporte (SVM) tienen sus propios parámetros respectivos, como los coeficientes del modelo lineal o los vectores de soporte.
Los pesos son las perillas de control o configuraciones fundamentales para un modelo y determinan cómo un modelo evalúa nuevos datos y hace predicciones. Son los parámetros centrales de un LLM y se aprenden durante el entrenamiento. Los LLM pueden tener millones o incluso miles de millones de pesos.
Los pesos son variables numéricas que establecen la importancia relativa de las características del conjunto de datos en la salida. En una red neuronal, los pesos determinan la fuerza de las conexiones entre neuronas: el grado en que la salida de una neurona afecta la entrada de la siguiente neurona.
Los sesgos permiten a las redes neuronales ajustar los resultados independientemente de los pesos y las entradas del modelo. Mientras que un peso es una configuración variable, los sesgos son constantes que actúan como umbrales o compensaciones. Los sesgos ayudan a los modelos a generalizar y captar patrones y tendencias más amplios en un conjunto de datos.
Las redes neuronales utilizan una función de activación para determinar si una neurona se activa y genera una salida. Los sesgos ajustan esta función, añadiendo flexibilidad al permitir que las neuronas se activen independientemente de si la suma de sus entradas es suficiente para desencadenar una activación.
Los parámetros de sesgo son un concepto distinto del sesgo algorítmico, que es cuando un modelo produce resultados discriminatorios. También se denomina sesgo al tipo de error que se produce cuando el modelo hace suposiciones incorrectas sobre los datos, lo que provoca una divergencia entre los valores previstos y los reales.
Debido a que dan forma al proceso de entrenamiento, muchos hiperparámetros afectan la configuración final de los parámetros de un modelo. Esto puede incluir:
Época: el número de iteraciones durante las cuales todo el conjunto de datos de entrenamiento pasa por el modelo durante el entrenamiento.
Tamaño del lote: la cantidad de datos de entrenamiento en cada ronda de entrenamiento. Los modelos actualizan iterativamente sus pesos y sesgos después de cada lote.
Tasa de aprendizaje: el grado en que un modelo puede actualizar sus ponderaciones.
Momentum: la tendencia de un modelo a actualizar sus pesos en la misma dirección que las actualizaciones anteriores, en lugar de revertir en la otra dirección.
Los parámetros desempeñan un papel crucial en el rendimiento del modelo. Influyen en la forma en que las neuronas de una red procesan los datos y generan los resultados. En la ciencia de datos, los datos de entrada se componen de cualidades y características conocidas como rasgos. Pero no todas las características son igual de relevantes para comprender los datos y hacer buenas predicciones.
Consideremos un modelo diseñado para clasificar a los animales como mamíferos o peces. Dado que tanto los mamíferos como los peces son vertebrados, la característica “vertebrado” no afecta las predicciones del modelo. Por el contrario, como todos los peces tienen branquias y ningún mamífero, la característica “tiene branquias” es mucho más importante para el modelo.
Los pesos correspondientes a la información más relevante crean conexiones más fuertes entre las neuronas relevantes. A su vez, las conexiones más fuertes aumentan la importancia de la información que se transmite entre esas neuronas en comparación con otras.
Los parámetros también afectan el rendimiento del modelo desde una perspectiva práctica:
Elsobreajuste ocurre cuando un modelo se ajusta demasiado a sus datos de entrenamiento y no puede generalizar a nuevos datos. El sobreajuste puede ser más probable o grave cuando un modelo tiene más parámetros: el modelo se adapta a un conjunto de datos de entrenamiento específico. Los diseñadores de modelos utilizan técnicas como la validación cruzada y la regularización de abandonos para mitigar el sobreajuste .
Los modelos con más parámetros pueden manejar tareas más complejas. El mayor número de parámetros le da al modelo una comprensión más matizada de los datos. Pero como se mencionó anteriormente, esto puede llevar a un sobreajuste.
Más parámetros aumentan el tamaño del modelo y requieren más recursos computacionales. Los poderosos modelos detrás de las principales aplicaciones generativas de IA como ChatGPT tienen miles de millones de parámetros y consumen cantidades masivas de agua y electricidad mientras que su capacitación cuesta millones de dólares.
En los enfoques tradicionales de machine learning, los modelos establecen parámetros a través de un proceso de capacitación en dos etapas que consiste en la propagación hacia adelante y hacia atrás.
La propagación hacia delante es el movimiento de datos a través del modelo. Las neuronas reciben información, calculan los pesos de esas entradas y agregan sesgos. Luego, la función de activación determina si ese valor es suficiente para activar la neurona. Si es así, la neurona activa y pasa salidas a través de la red. La cadena continúa hasta que el modelo genera una salida final.
La segunda etapa es la propagación hacia atrás . Esta fase calcula el error del modelo: la discrepancia entre su salida y los valores del mundo real. Para ello, un algoritmo de optimización de descenso de gradiente mide el gradiente de la función de pérdida. El modelo actualiza sus pesos y sesgos en respuesta al gradiente, con el objetivo de minimizar la función de pérdida y generar mejores predicciones.
El proceso de propagación hacia adelante y hacia atrás continúa hasta que la función de pérdida se haya minimizado correctamente, lo que indica un rendimiento óptimo del modelo. El rendimiento del modelo se juzga en función de las métricas de evaluación de LLM, como la coherencia del texto generado.
Los investigadores de machine learning han identificado una variedad de técnicas que pueden ayudar a los modelos a llegar a la mejor configuración de parámetros.
Elrefinamiento adapta un modelo entrenado a las tareas posteriores entrenándolo aún más en conjuntos de datos específicos de dominio más pequeños. Los modelos ajustados actualizan sus parámetros lo suficiente como para aprender nuevas tareas mientras conservan la capacidad de generalizar.
Laregularización agrega una penalización a la función de pérdida para evitar que el modelo cambie sus ponderaciones demasiado severamente.
La parada temprana termina la validación cuando un modelo ya no muestra signos de mejora, conservando recursos y minimizando la posibilidad de rendimientos decrecientes.
El aprendizaje por transferencia anima a los modelos a aplicar conocimientos previos a nuevas tareas, disminuyendo las posibilidades de que olvide lo que ya ha aprendido.
El aislamiento de parámetros congela determinados parámetros al capacitar modelos para nuevas tareas, impidiendo que los actualice y perdiendo potencialmente los conocimientos previos.
Repetir periódicamente expone un modelo a un "búfer de memoria" de datos anteriores mientras se entrena para nuevas tareas. El búfer se mezcla con los nuevos datos para actualizar la memoria del modelo y evitar ajustes de peso exagerados.
La cuantificación sustituye los pesos de un modelo entrenado por valores menos precisos, lo que reduce sus requisitos computacionales y preserva el conocimiento. En general, la cuantificación es la práctica de asignar formatos de alta precisión a formatos de menor precisión.
La validación cruzada divide los datos de entrenamiento en subconjuntos conocidos como pliegues, uno para entrenamiento y otro para prueba. El proceso se repite varias veces con diferentes agrupaciones de datos.
El ajuste de hiperparámetros es el proceso de optimización de los hiperparámetros de un modelo. Los hiperparámetros óptimos conducen a valores óptimos de los parámetros del modelo tras el entrenamiento.