El ajuste de modelos optimiza los hiperparámetros de un modelo de machine learning para obtener el mejor rendimiento de entrenamiento. El proceso implica realizar ajustes hasta encontrar el conjunto óptimo de valores de hiperparámetros, lo que se traduce en una mejora de la precisión, la calidad de la generación y otras métricas de rendimiento.
Como el ajuste del modelo identifica los hiperparámetros óptimos de un modelo, también se conoce como optimización de hiperparámetros o, alternativamente, ajuste de hiperparámetros.
Los hiperparámetros son variables de configuración del modelo que no pueden derivarse de los datos de entrenamiento. Estas variables determinan las características clave y el comportamiento de un modelo. Algunos hiperparámetros, como la tasa de aprendizaje, controlan el comportamiento del modelo durante el entrenamiento. Otros determinan la naturaleza del modelo en sí, como un hiperparámetro que establece el número de capas de una red neuronal.
Los científicos de datos deben configurar los valores de hiperparámetros de un modelo de machine learning (ML) antes de que comience el entrenamiento. Elegir la combinación correcta de hiperparámetros con antelación es esencial para un entrenamiento exitoso con modelos de ML.
Los parámetros del modelo, o ponderaciones del modelo, son variables que los modelos de inteligencia artificial (IA) descubren durante el entrenamiento. Los algoritmos de IA aprenden las relaciones, patrones y distribuciones subyacentes de sus conjuntos de datos de entrenamiento, y luego aplican esos hallazgos a nuevos datos para hacer predicciones exitosas.
A medida que un machine learning se entrena, establece y actualiza sus parámetros. Estos parámetros representan lo que un modelo aprende de su conjunto de datos y cambian con el tiempo con cada iteración de su algoritmo de optimización.
El ajuste de modelos es importante debido a cómo los valores de los hiperparámetros afectan directamente al rendimiento del modelo. Una buena configuración de hiperparámetros hace que los modelos aprendan mejor durante el entrenamiento.
Sin un buen ajuste, un modelo puede volverse propenso al sobreajuste,cuando se ajusta demasiado a sus datos de entrenamiento y no puede adaptarse a nuevos conjuntos de datos. Otras deficiencias pueden incluir un sesgo o una varianza excesivos del modelo.
Cada algoritmo de machine learning tiene su propia combinación óptima de hiperparámetros, y algunos influyen más en el rendimiento que otros. Limitar el ajuste del modelo a un conjunto básico de los hiperparámetros más impactantes puede reducir el tiempo y las demandas de recursos computacionales.
El sobreajuste ocurre cuando un modelo es demasiado complejo para sus datos de entrenamiento. Sus hiperparámetros crean una red neuronal con demasiadas capas o con demasiados parámetros entrenables. Con el sobreajuste, el modelo se adapta demasiado a su conjunto de datos de entrenamiento. Un modelo sobreajustado no puede adaptarse a nuevos datos porque no ha podido generalizar a partir de sus datos de entrenamiento.
Imagine dos estudiantes en un aula. Un estudiante aprende memorizando hechos, el otro entendiendo los conceptos subyacentes que se enseñan. Hasta ahora, ambos han obtenido buenos resultados en las pruebas que cubren el material del curso. Pero, ¿qué sucede cuando necesitan aplicar su aprendizaje a nuevos temas?
El estudiante que puede generalizar transferirá con éxito lo que ha aprendido, mientras que el estudiante que confía en la memoria puede tener dificultades para hacer lo mismo. Han "sobreajustado" su comprensión a los detalles específicos del contenido del aula sin comprender los principios básicos.
El sesgo es la diferencia entre las predicciones de un modelo y los resultados reales. Aunque el sesgo puede derivarse de conjuntos de datos de entrenamiento defectuosos, el sesgo también es el resultado de un ajuste subóptimo del modelo: el modelo no es capaz de aprender bien, incluso cuando sus datos de entrenamiento son viables.
Los modelos con alto sesgo ignoran sutilezas en los datos de entrenamiento y pueden no generar predicciones precisas durante el entrenamiento. Los algoritmos más simples, como la regresión lineal, son más propensos a un alto sesgo porque no pueden captar relaciones más complejas en sus datos de entrenamiento.
Elegir el algoritmo adecuado para una tarea específica es el primer paso para obtener un buen rendimiento, incluso antes de que comience el ajuste del modelo.
La varianza representa inversamente la coherencia de las predicciones de un modelo. Una mayor varianza significa que un modelo tiene predicciones menos consistentes con datos no vistos, aunque a menudo funcionan bien con conjuntos de datos de entrenamiento. Los modelos con alta varianza sufren de sobreajuste: no pueden transferir lo que han aprendido de los datos de entrenamiento a nuevos datos.
La regularización es una técnica que reduce el sobreajuste desplazando la relación sesgo-varianza a favor de un mayor sesgo. Un buen ajuste de modelos gestiona el equilibrio entre el sesgo y la varianza para obtener predicciones óptimas del mundo real.
El ajuste de modelos funciona descubriendo la configuración de hiperparámetros que dan como resultado el mejor resultado de entrenamiento. A veces, como cuando se crean modelos más pequeños y sencillos, los científicos de datos pueden configurar manualmente los hiperparámetros con antelación. Pero los transformadores y otros modelos complejos pueden tener miles de posibles combinaciones de hiperparámetros.
Con tantas opciones, los científicos de datos pueden limitar el espacio de búsqueda de hiperparámetros para cubrir la porción de combinaciones potenciales que tiene más probabilidades de producir resultados óptimos. También pueden utilizar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos para su caso de uso previsto.
Los métodos de ajuste de modelos más habituales son:
Búsqueda en cuadrícula
Búsqueda aleatoria
Optimización bayesiana
Hiperbanda
La búsqueda en cuadrícula es el método de ajuste del modelo de "fuerza bruta". Los científicos de datos crean un espacio de búsqueda que consta de todos los valores de hiperparámetros posibles. A continuación, el algoritmo de búsqueda de cuadrícula produce todas las combinaciones de hiperparámetros disponibles. El modelo se entrena y valida para cada combinación de hiperparámetros, y se selecciona el modelo con mejor rendimiento para su uso.
Dado que prueba todos los valores posibles de los hiperparámetros en lugar de un subconjunto más pequeño, la búsqueda de cuadrícula es un método de ajuste exhaustivo. La desventaja de este alcance ampliado es que la búsqueda en cuadrícula requiere mucho tiempo y recursos.
En lugar de probar cada configuración posible de hiperparámetros, los algoritmos de búsqueda aleatoria eligen valores de hiperparámetros de una distribución estadística de opciones potenciales. Los científicos de datos reúnen los valores de hiperparámetros más probables, lo que aumenta las posibilidades del algoritmo de seleccionar una opción viable.
La búsqueda aleatoria es más rápida y fácil de implementar que la búsqueda en cuadrícula. Pero como no se prueban todas las combinaciones, no hay garantía de que se encuentre la mejor configuración de hiperparámetros.
A diferencia de las búsquedas en cuadrícula y aleatorias, la optimización bayesiana selecciona los valores de los hiperparámetros basándose en los resultados de intentos anteriores. El algoritmo utiliza los resultados de las pruebas de los valores de hiperparámetros anteriores para predecir los valores que probablemente conduzcan a mejores resultados.
La optimización bayesiana funciona construyendo un modelo probabilístico de la función objetivo. Esta función sustituta se vuelve más eficiente con el tiempo a medida que mejoran sus resultados: evita asignar recursos a valores de hiperparámetros de menor rendimiento mientras se centra en la configuración óptima.
La técnica de optimizar un modelo basado en rondas de pruebas anteriores se conoce como optimización basada en modelos secuenciales (SMBO).
La hiperbanda mejora el flujo de trabajo de la búsqueda aleatoria centrándose en las configuraciones de hiperparámetros prometedoras y descartando las búsquedas menos viables. En cada iteración de la prueba, el algoritmo de hiperbanda elimina la mitad con peores resultados de todas las configuraciones probadas.
El enfoque de "reducción sucesiva a la mitad" de hiperbanda se centra en las configuraciones más prometedoras hasta que se descubre la mejor del grupo original de candidatos.
Aunque el ajuste de modelos es el proceso de descubrir los hiperparámetros óptimos, el entrenamiento del modelo es cuando se enseña a un algoritmo de machine learning a identificar patrones en su conjunto de datos y a hacer predicciones precisas a partir de datos nuevos.
El proceso de entrenamiento utiliza un algoritmo de optimización para minimizar una función de pérdida, o función objetivo, que mide la brecha entre las predicciones de un modelo y los valores reales. El objetivo es identificar la mejor combinación de ponderaciones y sesgos del modelo para el valor más bajo posible de la función objetivo. El algoritmo de optimización actualiza las ponderaciones de un modelo periódicamente durante el entrenamiento.
La familia de algoritmos de optimización de descenso de gradiente funciona descendiendo por el gradiente de la función de pérdida para descubrir su valor mínimo: el punto en el que el modelo es más preciso. Un mínimo local es un valor mínimo en una región especificada, pero puede no ser el mínimo global de la función, es decir, el valor más bajo absoluto.
No siempre es necesario identificar el mínimo global de la función de pérdidas. Se dice que un modelo ha alcanzado la convergencia cuando su función de pérdida se minimiza con éxito.
Tras el entrenamiento, los modelos se someten a validación cruzada, es decir, se comprueban los resultados del entrenamiento con otra parte de los datos de entrenamiento. Las predicciones del modelo se comparan con los valores reales de los datos de validación. El modelo de mayor rendimiento pasa a la fase de prueba, donde se vuelve a examinar la precisión de sus predicciones antes de la implementación. La validación cruzada y las pruebas son esenciales para la evaluación de modelos de lenguaje de gran tamaño (LLM).
El reentrenamiento es una parte del ciclo de vida de la IA de MLOps (operaciones de machine learning) que reentrena de forma continua y autónoma un modelo a lo largo del tiempo para que siga funcionando al máximo.
El ajuste de modelos identifica los mejores valores de hiperparámetros para el entrenamiento, mientras que el ajuste fino es el proceso de ajustar un modelo fundacional preentrenado para tareas posteriores específicas. El ajuste fino es un tipo de aprendizaje por transferencia: cuando el aprendizaje preexistente de un modelo se adapta a nuevas tareas.
Con el ajuste fino, un modelo preentrenado se entrena de nuevo en un conjunto de datos más pequeño y especializado que sea relevante para el caso de uso previsto del modelo. El entrenamiento inicial de un modelo con un conjunto de datos pequeño entraña el riesgo de sobreajuste, pero el entrenamiento con un conjunto de datos grande y generalizado ayuda a mitigar ese riesgo.
Aunque cada algoritmo tiene su propio conjunto de hiperparámetros, muchos son comunes a algoritmos similares. Los hiperparámetros comunes en las redes neuronales que impulsan los modelos de lenguaje de gran tamaño (LLM) incluyen:
Índice de aprendizaje
Decaimiento de la tasa de aprendizaje
Epochs
Tamaño de lote
Momentum
Número de capas ocultas
Nodos por capa
Función de activación
La tasa de aprendizaje determina la rapidez con la que un modelo actualiza sus ponderaciones durante el entrenamiento. Un ritmo de aprendizaje más alto significa que un modelo aprende más rápido, pero corre el riesgo de sobrepasar el mínimo local de su función de pérdida. Mientras tanto, una baja tasa de aprendizaje puede dar lugar a tiempos de formación excesivos, lo que aumenta la demanda de recursos y costes.
La disminución de la tasa de aprendizaje es un hiperparámetro que ralentiza el ritmo de aprendizaje de un algoritmo de ML con el tiempo. El modelo actualiza sus parámetros más rápidamente al principio, y luego con mayor matiz a medida que se acerca a la convergencia, lo que reduce el riesgo de sobrepasarse.
El entrenamiento de un modelo implica exponerlo a sus datos de entrenamiento varias veces para que actualice iterativamente sus ponderaciones. Se produce una época cada vez que el modelo procesa todo el conjunto de datos de entrenamiento, y el hiperparámetro de épocas establece el número de épocas que componen el proceso de entrenamiento.
Los algoritmos de machine learning no procesan sus conjuntos de datos en cada iteración del algoritmo de optimización. En cambio, los datos de entrenamiento se separan en lotes y los pesos del modelo se actualizan después de cada lote. El tamaño del lote determina la cantidad de muestras de datos en cada lote.
El impulso es la propensión de un algoritmo de ML a actualizar sus ponderaciones en la misma dirección que las actualizaciones anteriores. Piense en el impulso como la convicción de un algoritmo en su aprendizaje. Un impulso elevado lleva a un algoritmo a una convergencia más rápida a riesgo de eludir mínimos locales significativos. Mientras tanto, un bajo impulso puede hacer que un algoritmo vaya de un lado a otro con sus actualizaciones, estancando su progreso.
Las redes neuronales modelan la estructura del cerebro humano y contienen múltiples capas de neuronas o nodos interconectados. Esta complejidad es lo que permite que los modelos avanzados, como los modelos de transformadores, gestionen tareas generativas complejas. Menos capas hacen que el modelo sea más ágil, pero más capas abren la puerta a tareas más complejas.
Cada capa de una red neuronal tiene un número predeterminado de nodos. A medida que las capas aumentan de ancho, también lo hace la capacidad del modelo para manejar relaciones complejas entre puntos de datos, pero a costa de mayores requisitos computacionales.
Una función de activación es un hiperparámetro que otorga a los modelos la capacidad de crear límites no lineales entre grupos de datos. Cuando resulta imposible clasificar con precisión los puntos de datos en grupos separados por una línea recta, la activación proporciona la flexibilidad necesaria para realizar divisiones más complejas.
Una red neuronal sin función de activación es esencialmente un modelo de regresión lineal.