Etiquetas

¿Qué es el ajuste de modelos?

Vista trasera de un técnico de sonido manipulando una mesa de mezclas

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el ajuste de modelos?

El ajuste de modelos optimiza los hiperparámetros de un modelo de machine learning para obtener el mejor rendimiento de entrenamiento. El proceso implica realizar ajustes hasta encontrar el conjunto óptimo de valores de hiperparámetros, lo que da como resultado una mayor precisión, calidad de generación y otras métricas de rendimiento.

Debido a que el ajuste del modelo identifica los hiperparámetros óptimos de un modelo, también se conoce como optimización de hiperparámetros o, alternativamente, ajuste de hiperparámetros.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

¿Qué son los hiperparámetros?

Los hiperparámetros son variables de configuración del modelo que no pueden derivarse de los datos de entrenamiento. Estas variables determinan las características clave y el comportamiento de un modelo. Algunos hiperparámetros, como la tasa de aprendizaje, controlan el comportamiento del modelo durante el entrenamiento. Otros determinan la naturaleza del propio modelo, como un hiperparámetro que fija el número de capas en una red neuronal

Los científicos de datos deben configurar los valores de hiperparámetros de un modelo de machine learning (ML) antes de que comience el entrenamiento. Elegir la combinación correcta de hiperparámetros con anticipación es esencial para el entrenamiento exitoso del modelo de ML.

Hiperparámetros frente a parámetros del modelo

Los parámetros del modelo, o pesos del modelo, son variables que los modelos de inteligencia artificial (IA) descubren durante el entrenamiento. Los algoritmos de IA aprenden las relaciones, patrones y distribuciones subyacentes de sus conjuntos de datos, y luego aplican esos hallazgos a nuevos datos para hacer predicciones exitosas.

A medida que un algoritmo de machine learning se entrena, establece y actualiza sus parámetros. Estos parámetros representan lo que un modelo aprende de su conjunto de datos y cambian con el tiempo con cada iteración de su algoritmo de optimización.

¿Por qué es importante el ajuste de modelos?

El ajuste de modelos es importante debido a cómo los valores de hiperparámetros afectan directamente el rendimiento del modelo. Una buena configuración de hiperparámetros hace que los modelos aprendan mejor durante el entrenamiento.

Sin un buen ajuste, un modelo puede volverse propenso al sobreajuste, es decir, cuando se ciñe demasiado a sus datos de entrenamiento y no puede adaptarse a nuevos conjuntos de datos. Otras deficiencias pueden ser el sesgo o la varianza excesivos del modelo.

Cada algoritmo de machine learning tiene su propia combinación óptima de hiperparámetros, y algunos influyen más en el rendimiento que otros. Limitar el ajuste de modelos a un conjunto básico de los hiperparámetros más impactantes puede reducir el tiempo y las demandas de recursos computacionales.

Sobreajuste

El sobreajuste ocurre cuando un modelo es demasiado complejo para sus datos de entrenamiento. Sus hiperparámetros crean una red neuronal con demasiadas capas o con demasiados parámetros entrenables. Con el sobreajuste, el modelo se adapta demasiado a su conjunto de datos de entrenamiento. Un modelo sobreajustado no puede adaptarse a nuevos datos porque no consiguió generalizar a partir de sus datos de entrenamiento.

Imagine dos estudiantes en un aula. Un estudiante aprende memorizando hechos; el otro, entendiendo los conceptos subyacentes que se enseñan. Hasta ahora, ambos han tenido un buen desempeño en las pruebas que cubren el material del curso. Pero, ¿qué sucede cuando necesitan aplicar su aprendizaje a nuevos temas?

El estudiante que puede generalizar transferirá con éxito lo que ha aprendido, mientras que el estudiante que confía en la memoria puede tener dificultades para hacer lo mismo. Ha "sobreajustado" su comprensión a los detalles específicos del contenido del aula sin comprender los principios básicos.

Sesgo

El sesgo es la diferencia entre las predicciones de un modelo y los resultados reales. Aunque el sesgo puede deberse a conjuntos de datos defectuosos, también es consecuencia de un ajuste subóptimo del modelo: el modelo no es capaz de aprender bien, incluso cuando sus datos de entrenamiento son viables.

Los modelos con un alto sesgo ignoran las sutilezas de los datos de entrenamiento y pueden no generar predicciones precisas durante el entrenamiento. Los algoritmos más simples, como la regresión lineal, son más propensos a un sesgo alto porque no pueden capturar relaciones más complejas en sus datos de entrenamiento.

Elegir el algoritmo adecuado para una tarea específica es el primer paso para obtener un buen rendimiento, incluso antes de que comience el ajuste de modelos.

Varianza

La varianza representa inversamente la congruencia de las predicciones de un modelo. Una mayor varianza significa que un modelo tiene predicciones menos congruentes con datos inéditos, aunque a menudo funcionan bien con conjuntos de datos de entrenamiento. Los modelos con alta varianza experimentan sobreajuste: no pueden transferir lo que han aprendido de los datos de entrenamiento a nuevos datos.

La regularización es una técnica que reduce el sobreajuste al desplazar la relación sesgo-varianza a favor de un sesgo mayor. Un buen ajuste del modelo gestiona el equilibrio entre sesgo y varianza para obtener predicciones óptimas en el mundo real.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

¿Cómo funciona el ajuste de modelos?

El ajuste de modelos funciona al descubrir la configuración de hiperparámetros que se traducen en el mejor resultado de entrenamiento. A veces, como cuando se construyen modelos más pequeños y sencillos, los científicos de datos pueden configurar manualmente los hiperparámetros con antelación. Pero los transformadores y otros modelos complejos pueden tener miles de posibles combinaciones de hiperparámetros.

Con tantas opciones, los científicos de datos pueden limitar el espacio de búsqueda de hiperparámetros para cubrir la parte de las combinaciones potenciales que es más probable que produzca resultados óptimos. También pueden utilizar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos para su caso de uso previsto.

Métodos de ajuste de modelos

Los métodos de ajuste de modelos más comunes incluyen:

Búsqueda en cuadrícula
Búsqueda aleatoria
Optimización bayesiana
Hyperband

Búsqueda en cuadrícula

La búsqueda en cuadrícula es el método de ajuste de modelos de "fuerza bruta". Los científicos de datos crean un espacio de búsqueda que consta de todos los valores de hiperparámetros posibles. A continuación, el algoritmo de búsqueda de cuadrícula produce todas las combinaciones de hiperparámetros disponibles. El modelo se entrena y valida para cada combinación de hiperparámetros, y se selecciona el modelo con mejor rendimiento para su uso.

Debido a que prueba todos los valores posibles de hiperparámetros en lugar de un subconjunto más pequeño, la búsqueda en cuadrícula es un método de ajuste integral. La desventaja de este alcance ampliado es que la búsqueda en cuadrícula requiere mucho tiempo y recursos.

Búsqueda aleatoria

En lugar de probar todas las configuraciones posibles de hiperparámetros, los algoritmos de búsqueda aleatoria eligen valores de hiperparámetros a partir de una distribución estadística de opciones potenciales. Los científicos de datos reúnen los valores de hiperparámetros más probables, lo que aumenta las posibilidades del algoritmo de seleccionar una opción viable.

La búsqueda aleatoria es más rápida y fácil de implementar que la búsqueda en cuadrícula. Pero debido a que no se prueban todas las combinaciones, no hay garantía de que se encuentre la mejor configuración de hiperparámetro.

Optimización bayesiana

A diferencia de las búsquedas aleatorias y de cuadrícula, la optimización bayesiana selecciona valores de hiperparámetros en función de los resultados de intentos anteriores. El algoritmo emplea los resultados de las pruebas de los valores de hiperparámetros anteriores para predecir los valores que probablemente conduzcan a mejores resultados.

La optimización bayesiana funciona construyendo un modelo probabilístico de la función objetivo. Esta función sustituta se vuelve más eficiente con el tiempo a medida que sus resultados mejoran: evita asignar recursos a valores de hiperparámetros de menor rendimiento mientras se centra en la configuración óptima.

La técnica de optimizar un modelo basado en rondas de pruebas anteriores se conoce como optimización basada en modelos secuenciales (SMBO).

Hyperband

La hiperbanda mejora el flujo de trabajo de búsqueda aleatoria centrándose en configuraciones de hiperparámetros prometedoras y abortando búsquedas menos viables. En cada iteración de las pruebas, el algoritmo de hiperbanda elimina la mitad de peor rendimiento de todas las configuraciones probadas.

El enfoque de "reducción a la mitad sucesiva" de hiperbanda mantiene el enfoque en las configuraciones más prometedoras hasta que se descubre la mejor del grupo original de candidatos.

Ajuste de modelos frente a entrenamiento de modelos

Mientras que el ajuste de modelos es el proceso de descubrir los hiperparámetros óptimos, el entrenamiento de modelos es cuando se enseña a un algoritmo de machine learning a identificar patrones en su conjunto de datos y hacer predicciones precisas sobre nuevos datos.

El proceso de entrenamiento utiliza un algoritmo de optimización para minimizar una función de pérdida, o función objetiva, que mide la brecha entre las predicciones de un modelo y los valores reales. El objetivo es identificar la mejor combinación de ponderaciones y sesgos del modelo para el valor más bajo posible de la función objetivo. El algoritmo de optimización actualiza las ponderaciones de un modelo periódicamente durante el entrenamiento.

La familia de algoritmos de optimización de descenso del gradiente funciona descendiendo el gradiente de la función de pérdida para descubrir su valor mínimo: el punto en el que el modelo es más preciso. Un mínimo local es un valor mínimo en una región específica, pero podría no ser el mínimo global de la función, es decir, el valor más bajo absoluto.

No siempre es necesario identificar el mínimo global de la función de pérdida. Se dice que un modelo alcanzó la convergencia cuando su función de pérdida se minimiza con éxito.

Validación cruzada, pruebas y reentrenamiento

Luego del entrenamiento, los modelos se someten a una validación cruzada, es decir, comprueban los resultados del entrenamiento con otra parte de los datos de entrenamiento. Las predicciones del modelo se comparan con los valores reales de los datos de validación. A continuación, el modelo de mayor rendimiento se mueve a la fase de prueba, en la que se examina de nuevo la precisión de sus predicciones antes del despliegue. La validación cruzada y las pruebas son esenciales para la evaluación de modelos de lenguaje grandes (LLM).

El reentrenamiento es una parte del ciclo de vida de MLOps (operaciones de machine learning) que reentrena de forma continua y autónoma un modelo a lo largo del tiempo para mantenerlo funcionando al máximo.

Ajuste de modelos frente a refinamiento

El ajuste de modelos identifica los mejores valores de hiperparámetros para el entrenamiento, mientras que el refinamiento es el proceso de ajustar un modelo fundacional previamente entrenado para tareas posteriores específicas. El refinamiento es un tipo de aprendizaje por transferencia: cuando el aprendizaje preexistente de un modelo se adapta a nuevas tareas.

Con el refinamiento, un modelo previamente entrenado se vuelve a entrenar en un conjunto de datos más pequeño y especializado que es relevante para el caso de uso previsto del modelo. Inicialmente, entrenar un modelo en un conjunto de datos pequeño corre el riesgo de sobreajuste, pero entrenar con un conjunto de datos grande y generalizado ayuda a mitigar ese riesgo.

Ejemplos de hiperparámetros

Si bien cada algoritmo tiene su propio conjunto de hiperparámetros, muchos se comparten entre algoritmos similares. Los hiperparámetros comunes en las redes neuronales que impulsan los modelos de lenguaje grandes (LLM) incluyen:

Índice de aprendizaje
Disminución del índice de aprendizaje
Épocas
Tamaño de lote
Momentum
Número de capas ocultas
Nodos por capa
Función de activación

Índice de aprendizaje

La tasa de aprendizaje determina la rapidez con la que un modelo actualiza sus ponderaciones durante el entrenamiento. Una tasa de aprendizaje más alta significa que un modelo aprende más rápido, pero corre el riesgo de sobrepasar un mínimo local de su función de pérdida. Mientras tanto, una baja tasa de aprendizaje puede llevar a tiempos de entrenamiento excesivos, aumentando los recursos y las demandas de costos.

Disminución del índice de aprendizaje

El decaimiento de la tasa de aprendizaje es un hiperparámetro que ralentiza la tasa de aprendizaje de un algoritmo de ML con el tiempo. El modelo actualiza sus parámetros más rápidamente al principio, luego con mayores matices a medida que se acerca a la convergencia, lo que reduce el riesgo de exceso.

Épocas

El entrenamiento de modelos implica exponer un modelo a sus datos de entrenamiento varias veces para que actualice iterativamente sus ponderaciones. Se produce una época cada vez que el modelo procesa todo su conjunto de datos de entrenamiento, y el hiperparámetro de épocas establece el número de épocas que componen el proceso de entrenamiento.

Tamaño de lote

Los algoritmos de machine learning no procesan todos sus conjuntos de datos en cada iteración del algoritmo de optimización. En cambio, los datos de entrenamiento se separan en lotes, y las ponderaciones del modelo se actualizan después de cada lote. El tamaño del lote determina el número de muestras de datos en cada lote.

Momentum

El impulso es la propensión de un algoritmo de ML a actualizar sus ponderaciones en la misma dirección que las actualizaciones anteriores. Piense en el impulso como la convicción de un algoritmo en su aprendizaje. Un impulso elevado lleva a un algoritmo a una convergencia más rápida a riesgo de eludir mínimos locales significativos. Mientras tanto, un bajo impulso puede hacer que un algoritmo vaya de un lado a otro con sus actualizaciones, estancando su progreso.

Número de capas ocultas

Las redes neuronales modelan la estructura del cerebro humano y contienen múltiples capas de neuronas interconectadas o nodos. Esta complejidad es lo que permite que los modelos avanzados, como los modelos de transformadores, manejen tareas generativas complejas. Menos capas hacen que el modelo sea más limpio, pero más capas abren la puerta a tareas más complejas.

Nodos por capa

Cada capa de una red neuronal tiene un número predeterminado de nodos. A medida que las capas aumentan en ancho, también lo hace la capacidad del modelo para manejar relaciones complejas entre puntos de datos, pero a costa de mayores requisitos informáticos.

Función de activación

Una función de activación es un hiperparámetro que otorga a los modelos la capacidad de crear límites no lineales entre grupos de datos. Cuando es imposible clasificar con precisión los puntos de datos en grupos separados por una línea recta, la activación proporciona la flexibilidad necesaria para divisiones más complejas.

Una red neuronal sin una función de activación es esencialmente un modelo de regresión lineal.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto para preparar conjuntos de datos e implementar modelos fundacionales.

Recursos

Cómo lograr el ROI: agentes de IA en su negocio

Únase a IBM para un seminario web en el que demostramos cómo encontrar un retorno de la inversión (ROI) real a través de iniciativas de IA agéntica, con ejemplos en todas las industrias, casos de uso e incluso las propias historias de éxito de IBM.

IBM es nombrada líder en ciencia de datos y machine learning

Descubra por qué IBM ha sido reconocida como líder en el 2025 Gartner® Magic Quadrant™ para plataformas de ciencia de datos y machine learning.

De los proyectos de IA a los beneficios: Cómo la IA agéntica puede mantener la rentabilidad financiera

Descubra cómo las organizaciones están pasando de lanzar IA en pilotos dispares a usarla para impulsar la transformación en el núcleo.

Aumente sus conocimientos sobre IA

Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, lo que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio bajo.

Explorar IBM Granite

IBM® Granite es una familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Academia de IA de IBM

Dirigida por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.

AI in Action 2024

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

La guía del CEO 2025: cinco cambios de mentalidad para impulsar el crecimiento empresarial

Active estos cinco cambios de mentalidad para superar la incertidumbre, estimular la reinvención empresarial y potenciar el crecimiento con la IA agéntica.

Desbloquee el poder de la IA generativa y ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los tres elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo

¿Qué es el ajuste de modelos?

Autores

¿Qué es el ajuste de modelos?

Las últimas novedades e insights sobre IA

¿Qué son los hiperparámetros?

Hiperparámetros frente a parámetros del modelo

¿Por qué es importante el ajuste de modelos?

Sobreajuste

Sesgo

Varianza

Decodificación de la IA: Resumen semanal de noticias

¿Cómo funciona el ajuste de modelos?

Métodos de ajuste de modelos

Búsqueda en cuadrícula

Búsqueda aleatoria

Optimización bayesiana

Hyperband

Ajuste de modelos frente a entrenamiento de modelos

Validación cruzada, pruebas y reentrenamiento

Ajuste de modelos frente a refinamiento

Ejemplos de hiperparámetros

Índice de aprendizaje

Disminución del índice de aprendizaje

Épocas

Tamaño de lote

Momentum

Número de capas ocultas

Nodos por capa

Función de activación

Share

Recursos