¿Qué es el ajuste de modelos?

Vista trasera de un técnico de sonido manipulando una mesa de mezclas

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el ajuste de modelos?

El ajuste de modelos optimiza los hiperparámetros de un modelo de machine learning para obtener el mejor rendimiento de entrenamiento. El proceso implica realizar ajustes hasta encontrar el conjunto óptimo de valores de hiperparámetros, lo que da como resultado una mayor precisión, calidad de generación y otras métricas de rendimiento.

Debido a que el ajuste del modelo identifica los hiperparámetros óptimos de un modelo, también se conoce como optimización de hiperparámetros o, alternativamente, ajuste de hiperparámetros.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Qué son los hiperparámetros?

Los hiperparámetros son variables de configuración del modelo que no pueden derivarse de los datos de entrenamiento. Estas variables determinan las características clave y el comportamiento de un modelo. Algunos hiperparámetros, como la tasa de aprendizaje, controlan el comportamiento del modelo durante el entrenamiento. Otros determinan la naturaleza del propio modelo, como un hiperparámetro que fija el número de capas en una red neuronal

Los científicos de datos deben configurar los valores de hiperparámetros de un modelo de machine learning (ML) antes de que comience el entrenamiento. Elegir la combinación correcta de hiperparámetros con anticipación es esencial para el entrenamiento exitoso del modelo de ML.

Hiperparámetros frente a parámetros del modelo

Los parámetros del modelo, o pesos del modelo, son variables que los modelos de inteligencia artificial (IA) descubren durante el entrenamiento. Los algoritmos de IA aprenden las relaciones, patrones y distribuciones subyacentes de sus conjuntos de datos, y luego aplican esos hallazgos a nuevos datos para hacer predicciones exitosas.

A medida que un algoritmo de machine learning se entrena, establece y actualiza sus parámetros. Estos parámetros representan lo que un modelo aprende de su conjunto de datos y cambian con el tiempo con cada iteración de su algoritmo de optimización.

¿Por qué es importante el ajuste de modelos?

El ajuste de modelos es importante debido a cómo los valores de hiperparámetros afectan directamente el rendimiento del modelo. Una buena configuración de hiperparámetros hace que los modelos aprendan mejor durante el entrenamiento.

Sin un buen ajuste, un modelo puede volverse propenso al sobreajuste, es decir, cuando se ciñe demasiado a sus datos de entrenamiento y no puede adaptarse a nuevos conjuntos de datos. Otras deficiencias pueden ser el sesgo o la varianza excesivos del modelo.

Cada algoritmo de machine learning tiene su propia combinación óptima de hiperparámetros, y algunos influyen más en el rendimiento que otros. Limitar el ajuste de modelos a un conjunto básico de los hiperparámetros más impactantes puede reducir el tiempo y las demandas de recursos computacionales.

      Sobreajuste

      El sobreajuste ocurre cuando un modelo es demasiado complejo para sus datos de entrenamiento. Sus hiperparámetros crean una red neuronal con demasiadas capas o con demasiados parámetros entrenables. Con el sobreajuste, el modelo se adapta demasiado a su conjunto de datos de entrenamiento. Un modelo sobreajustado no puede adaptarse a nuevos datos porque no consiguió generalizar a partir de sus datos de entrenamiento.

      Imagine dos estudiantes en un aula. Un estudiante aprende memorizando hechos; el otro, entendiendo los conceptos subyacentes que se enseñan. Hasta ahora, ambos han tenido un buen desempeño en las pruebas que cubren el material del curso. Pero, ¿qué sucede cuando necesitan aplicar su aprendizaje a nuevos temas?

      El estudiante que puede generalizar transferirá con éxito lo que ha aprendido, mientras que el estudiante que confía en la memoria puede tener dificultades para hacer lo mismo. Ha "sobreajustado" su comprensión a los detalles específicos del contenido del aula sin comprender los principios básicos.

      Sesgo

      El sesgo es la diferencia entre las predicciones de un modelo y los resultados reales. Aunque el sesgo puede deberse a conjuntos de datos defectuosos, también es consecuencia de un ajuste subóptimo del modelo: el modelo no es capaz de aprender bien, incluso cuando sus datos de entrenamiento son viables.

      Los modelos con un alto sesgo ignoran las sutilezas de los datos de entrenamiento y pueden no generar predicciones precisas durante el entrenamiento. Los algoritmos más simples, como la regresión lineal, son más propensos a un sesgo alto porque no pueden capturar relaciones más complejas en sus datos de entrenamiento.

      Elegir el algoritmo adecuado para una tarea específica es el primer paso para obtener un buen rendimiento, incluso antes de que comience el ajuste de modelos.

      Varianza

      La varianza representa inversamente la congruencia de las predicciones de un modelo. Una mayor varianza significa que un modelo tiene predicciones menos congruentes con datos inéditos, aunque a menudo funcionan bien con conjuntos de datos de entrenamiento. Los modelos con alta varianza experimentan sobreajuste: no pueden transferir lo que han aprendido de los datos de entrenamiento a nuevos datos.

      La regularización es una técnica que reduce el sobreajuste al desplazar la relación sesgo-varianza a favor de un sesgo mayor. Un buen ajuste del modelo gestiona el equilibrio entre sesgo y varianza para obtener predicciones óptimas en el mundo real.

      Mixture of Experts | 12 de diciembre, episodio 85

      Decodificación de la IA: Resumen semanal de noticias

      Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

      ¿Cómo funciona el ajuste de modelos?

      El ajuste de modelos funciona al descubrir la configuración de hiperparámetros que se traducen en el mejor resultado de entrenamiento. A veces, como cuando se construyen modelos más pequeños y sencillos, los científicos de datos pueden configurar manualmente los hiperparámetros con antelación. Pero los transformadores y otros modelos complejos pueden tener miles de posibles combinaciones de hiperparámetros.

      Con tantas opciones, los científicos de datos pueden limitar el espacio de búsqueda de hiperparámetros para cubrir la parte de las combinaciones potenciales que es más probable que produzca resultados óptimos. También pueden utilizar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos para su caso de uso previsto.

        Métodos de ajuste de modelos

        Los métodos de ajuste de modelos más comunes incluyen:

        • Búsqueda en cuadrícula

        • Búsqueda aleatoria

        • Optimización bayesiana

        • Hyperband

        Búsqueda en cuadrícula

        La búsqueda en cuadrícula es el método de ajuste de modelos de "fuerza bruta". Los científicos de datos crean un espacio de búsqueda que consta de todos los valores de hiperparámetros posibles. A continuación, el algoritmo de búsqueda de cuadrícula produce todas las combinaciones de hiperparámetros disponibles. El modelo se entrena y valida para cada combinación de hiperparámetros, y se selecciona el modelo con mejor rendimiento para su uso.

        Debido a que prueba todos los valores posibles de hiperparámetros en lugar de un subconjunto más pequeño, la búsqueda en cuadrícula es un método de ajuste integral. La desventaja de este alcance ampliado es que la búsqueda en cuadrícula requiere mucho tiempo y recursos.

          Búsqueda aleatoria

          En lugar de probar todas las configuraciones posibles de hiperparámetros, los algoritmos de búsqueda aleatoria eligen valores de hiperparámetros a partir de una distribución estadística de opciones potenciales. Los científicos de datos reúnen los valores de hiperparámetros más probables, lo que aumenta las posibilidades del algoritmo de seleccionar una opción viable.

          La búsqueda aleatoria es más rápida y fácil de implementar que la búsqueda en cuadrícula. Pero debido a que no se prueban todas las combinaciones, no hay garantía de que se encuentre la mejor configuración de hiperparámetro.

          Optimización bayesiana

          A diferencia de las búsquedas aleatorias y de cuadrícula, la optimización bayesiana selecciona valores de hiperparámetros en función de los resultados de intentos anteriores. El algoritmo emplea los resultados de las pruebas de los valores de hiperparámetros anteriores para predecir los valores que probablemente conduzcan a mejores resultados.

          La optimización bayesiana funciona construyendo un modelo probabilístico de la función objetivo. Esta función sustituta se vuelve más eficiente con el tiempo a medida que sus resultados mejoran: evita asignar recursos a valores de hiperparámetros de menor rendimiento mientras se centra en la configuración óptima.

          La técnica de optimizar un modelo basado en rondas de pruebas anteriores se conoce como optimización basada en modelos secuenciales (SMBO).

            Hyperband

            La hiperbanda mejora el flujo de trabajo de búsqueda aleatoria centrándose en configuraciones de hiperparámetros prometedoras y abortando búsquedas menos viables. En cada iteración de las pruebas, el algoritmo de hiperbanda elimina la mitad de peor rendimiento de todas las configuraciones probadas.

            El enfoque de "reducción a la mitad sucesiva" de hiperbanda mantiene el enfoque en las configuraciones más prometedoras hasta que se descubre la mejor del grupo original de candidatos.

            Ajuste de modelos frente a entrenamiento de modelos

            Mientras que el ajuste de modelos es el proceso de descubrir los hiperparámetros óptimos, el entrenamiento de modelos es cuando se enseña a un algoritmo de machine learning a identificar patrones en su conjunto de datos y hacer predicciones precisas sobre nuevos datos.

            El proceso de entrenamiento utiliza un algoritmo de optimización para minimizar una función de pérdida, o función objetiva, que mide la brecha entre las predicciones de un modelo y los valores reales. El objetivo es identificar la mejor combinación de ponderaciones y sesgos del modelo para el valor más bajo posible de la función objetivo. El algoritmo de optimización actualiza las ponderaciones de un modelo periódicamente durante el entrenamiento.

            La familia de algoritmos de optimización de descenso del gradiente funciona descendiendo el gradiente de la función de pérdida para descubrir su valor mínimo: el punto en el que el modelo es más preciso. Un mínimo local es un valor mínimo en una región específica, pero podría no ser el mínimo global de la función, es decir, el valor más bajo absoluto.

            No siempre es necesario identificar el mínimo global de la función de pérdida. Se dice que un modelo alcanzó la convergencia cuando su función de pérdida se minimiza con éxito.

            Validación cruzada, pruebas y reentrenamiento

            Luego del entrenamiento, los modelos se someten a una validación cruzada, es decir, comprueban los resultados del entrenamiento con otra parte de los datos de entrenamiento. Las predicciones del modelo se comparan con los valores reales de los datos de validación. A continuación, el modelo de mayor rendimiento se mueve a la fase de prueba, en la que se examina de nuevo la precisión de sus predicciones antes del despliegue. La validación cruzada y las pruebas son esenciales para la evaluación de modelos de lenguaje grandes (LLM).

            El reentrenamiento es una parte del ciclo de vida de MLOps (operaciones de machine learning) que reentrena de forma continua y autónoma un modelo a lo largo del tiempo para mantenerlo funcionando al máximo.

            Ajuste de modelos frente a refinamiento

            El ajuste de modelos identifica los mejores valores de hiperparámetros para el entrenamiento, mientras que el refinamiento es el proceso de ajustar un modelo fundacional previamente entrenado para tareas posteriores específicas. El refinamiento es un tipo de aprendizaje por transferencia: cuando el aprendizaje preexistente de un modelo se adapta a nuevas tareas.

            Con el refinamiento, un modelo previamente entrenado se vuelve a entrenar en un conjunto de datos más pequeño y especializado que es relevante para el caso de uso previsto del modelo. Inicialmente, entrenar un modelo en un conjunto de datos pequeño corre el riesgo de sobreajuste, pero entrenar con un conjunto de datos grande y generalizado ayuda a mitigar ese riesgo.

            Ejemplos de hiperparámetros

            Si bien cada algoritmo tiene su propio conjunto de hiperparámetros, muchos se comparten entre algoritmos similares. Los hiperparámetros comunes en las redes neuronales que impulsan los modelos de lenguaje grandes (LLM) incluyen:

            • Índice de aprendizaje

            • Disminución del índice de aprendizaje

            • Épocas

            • Tamaño de lote

            • Momentum

            • Número de capas ocultas

            • Nodos por capa

            • Función de activación

            Índice de aprendizaje

            La tasa de aprendizaje determina la rapidez con la que un modelo actualiza sus ponderaciones durante el entrenamiento. Una tasa de aprendizaje más alta significa que un modelo aprende más rápido, pero corre el riesgo de sobrepasar un mínimo local de su función de pérdida. Mientras tanto, una baja tasa de aprendizaje puede llevar a tiempos de entrenamiento excesivos, aumentando los recursos y las demandas de costos.

            Disminución del índice de aprendizaje

            El decaimiento de la tasa de aprendizaje es un hiperparámetro que ralentiza la tasa de aprendizaje de un algoritmo de ML con el tiempo. El modelo actualiza sus parámetros más rápidamente al principio, luego con mayores matices a medida que se acerca a la convergencia, lo que reduce el riesgo de exceso.

            Épocas

            El entrenamiento de modelos implica exponer un modelo a sus datos de entrenamiento varias veces para que actualice iterativamente sus ponderaciones. Se produce una época cada vez que el modelo procesa todo su conjunto de datos de entrenamiento, y el hiperparámetro de épocas establece el número de épocas que componen el proceso de entrenamiento.

            Tamaño de lote

            Los algoritmos de machine learning no procesan todos sus conjuntos de datos en cada iteración del algoritmo de optimización. En cambio, los datos de entrenamiento se separan en lotes, y las ponderaciones del modelo se actualizan después de cada lote. El tamaño del lote determina el número de muestras de datos en cada lote.

            Momentum

            El impulso es la propensión de un algoritmo de ML a actualizar sus ponderaciones en la misma dirección que las actualizaciones anteriores. Piense en el impulso como la convicción de un algoritmo en su aprendizaje. Un impulso elevado lleva a un algoritmo a una convergencia más rápida a riesgo de eludir mínimos locales significativos. Mientras tanto, un bajo impulso puede hacer que un algoritmo vaya de un lado a otro con sus actualizaciones, estancando su progreso.

            Número de capas ocultas

            Las redes neuronales modelan la estructura del cerebro humano y contienen múltiples capas de neuronas interconectadas o nodos. Esta complejidad es lo que permite que los modelos avanzados, como los modelos de transformadores, manejen tareas generativas complejas. Menos capas hacen que el modelo sea más limpio, pero más capas abren la puerta a tareas más complejas.

            Nodos por capa

            Cada capa de una red neuronal tiene un número predeterminado de nodos. A medida que las capas aumentan en ancho, también lo hace la capacidad del modelo para manejar relaciones complejas entre puntos de datos, pero a costa de mayores requisitos informáticos.

            Función de activación

            Una función de activación es un hiperparámetro que otorga a los modelos la capacidad de crear límites no lineales entre grupos de datos. Cuando es imposible clasificar con precisión los puntos de datos en grupos separados por una línea recta, la activación proporciona la flexibilidad necesaria para divisiones más complejas.

            Una red neuronal sin una función de activación es esencialmente un modelo de regresión lineal.

            Soluciones relacionadas
            IBM® watsonx.ai

            Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

            Explore watsonx.ai
            Soluciones de inteligencia artificial

            Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

            Explore las soluciones de IA
            Consultoría y servicios de inteligencia artificial (IA)

            Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

            Explore los servicios de IA
            Dé el siguiente paso

            Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

            Explore watsonx.ai Reserve una demostración en vivo