Etiquetas

¿Qué es el ajuste de modelos?

Vista posterior de un ingeniero de sonido manipulando una mesa de mezclas

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el ajuste de modelos?

El ajuste de modelos optimiza los hiperparámetros de un modelo de machine learning para obtener el mejor rendimiento de entrenamiento. El proceso implica realizar ajustes hasta encontrar el conjunto óptimo de valores de hiperparámetros, lo que se traduce en una mejora de la precisión, la calidad de la generación y otras métricas de rendimiento.

Como el ajuste del modelo identifica los hiperparámetros óptimos de un modelo, también se conoce como optimización de hiperparámetros o, alternativamente, ajuste de hiperparámetros.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

¿Qué son los hiperparámetros?

Los hiperparámetros son variables de configuración del modelo que no pueden derivarse de los datos de entrenamiento. Estas variables determinan las características clave y el comportamiento de un modelo. Algunos hiperparámetros, como la tasa de aprendizaje, controlan el comportamiento del modelo durante el entrenamiento. Otros determinan la naturaleza del modelo en sí, como un hiperparámetro que establece el número de capas de una red neuronal.

Los científicos de datos deben configurar los valores de hiperparámetros de un modelo de machine learning (ML) antes de que comience el entrenamiento. Elegir la combinación correcta de hiperparámetros con antelación es esencial para un entrenamiento exitoso con modelos de ML.

Hiperparámetros vs. parámetros del modelo

Los parámetros del modelo, o ponderaciones del modelo, son variables que los modelos de inteligencia artificial (IA) descubren durante el entrenamiento. Los algoritmos de IA aprenden las relaciones, patrones y distribuciones subyacentes de sus conjuntos de datos de entrenamiento, y luego aplican esos hallazgos a nuevos datos para hacer predicciones exitosas.

A medida que un machine learning se entrena, establece y actualiza sus parámetros. Estos parámetros representan lo que un modelo aprende de su conjunto de datos y cambian con el tiempo con cada iteración de su algoritmo de optimización.

¿Por qué es importante el ajuste de modelos?

El ajuste de modelos es importante debido a cómo los valores de los hiperparámetros afectan directamente al rendimiento del modelo. Una buena configuración de hiperparámetros hace que los modelos aprendan mejor durante el entrenamiento.

Sin un buen ajuste, un modelo puede volverse propenso al sobreajuste,cuando se ajusta demasiado a sus datos de entrenamiento y no puede adaptarse a nuevos conjuntos de datos. Otras deficiencias pueden incluir un sesgo o una varianza excesivos del modelo.

Cada algoritmo de machine learning tiene su propia combinación óptima de hiperparámetros, y algunos influyen más en el rendimiento que otros. Limitar el ajuste del modelo a un conjunto básico de los hiperparámetros más impactantes puede reducir el tiempo y las demandas de recursos computacionales.

Sobreajuste

El sobreajuste ocurre cuando un modelo es demasiado complejo para sus datos de entrenamiento. Sus hiperparámetros crean una red neuronal con demasiadas capas o con demasiados parámetros entrenables. Con el sobreajuste, el modelo se adapta demasiado a su conjunto de datos de entrenamiento. Un modelo sobreajustado no puede adaptarse a nuevos datos porque no ha podido generalizar a partir de sus datos de entrenamiento.

Imagine dos estudiantes en un aula. Un estudiante aprende memorizando hechos, el otro entendiendo los conceptos subyacentes que se enseñan. Hasta ahora, ambos han obtenido buenos resultados en las pruebas que cubren el material del curso. Pero, ¿qué sucede cuando necesitan aplicar su aprendizaje a nuevos temas?

El estudiante que puede generalizar transferirá con éxito lo que ha aprendido, mientras que el estudiante que confía en la memoria puede tener dificultades para hacer lo mismo. Han "sobreajustado" su comprensión a los detalles específicos del contenido del aula sin comprender los principios básicos.

Sesgo

El sesgo es la diferencia entre las predicciones de un modelo y los resultados reales. Aunque el sesgo puede derivarse de conjuntos de datos de entrenamiento defectuosos, el sesgo también es el resultado de un ajuste subóptimo del modelo: el modelo no es capaz de aprender bien, incluso cuando sus datos de entrenamiento son viables.

Los modelos con alto sesgo ignoran sutilezas en los datos de entrenamiento y pueden no generar predicciones precisas durante el entrenamiento. Los algoritmos más simples, como la regresión lineal, son más propensos a un alto sesgo porque no pueden captar relaciones más complejas en sus datos de entrenamiento.

Elegir el algoritmo adecuado para una tarea específica es el primer paso para obtener un buen rendimiento, incluso antes de que comience el ajuste del modelo.

Varianza

La varianza representa inversamente la coherencia de las predicciones de un modelo. Una mayor varianza significa que un modelo tiene predicciones menos consistentes con datos no vistos, aunque a menudo funcionan bien con conjuntos de datos de entrenamiento. Los modelos con alta varianza sufren de sobreajuste: no pueden transferir lo que han aprendido de los datos de entrenamiento a nuevos datos.

La regularización es una técnica que reduce el sobreajuste desplazando la relación sesgo-varianza a favor de un mayor sesgo. Un buen ajuste de modelos gestiona el equilibrio entre el sesgo y la varianza para obtener predicciones óptimas del mundo real.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

¿Cómo funciona el ajuste de modelos?

El ajuste de modelos funciona descubriendo la configuración de hiperparámetros que dan como resultado el mejor resultado de entrenamiento. A veces, como cuando se crean modelos más pequeños y sencillos, los científicos de datos pueden configurar manualmente los hiperparámetros con antelación. Pero los transformadores y otros modelos complejos pueden tener miles de posibles combinaciones de hiperparámetros.

Con tantas opciones, los científicos de datos pueden limitar el espacio de búsqueda de hiperparámetros para cubrir la porción de combinaciones potenciales que tiene más probabilidades de producir resultados óptimos. También pueden utilizar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos para su caso de uso previsto.

Métodos de ajuste de modelos

Los métodos de ajuste de modelos más habituales son:

Búsqueda en cuadrícula
Búsqueda aleatoria
Optimización bayesiana
Hiperbanda

Búsqueda en cuadrícula

La búsqueda en cuadrícula es el método de ajuste del modelo de "fuerza bruta". Los científicos de datos crean un espacio de búsqueda que consta de todos los valores de hiperparámetros posibles. A continuación, el algoritmo de búsqueda de cuadrícula produce todas las combinaciones de hiperparámetros disponibles. El modelo se entrena y valida para cada combinación de hiperparámetros, y se selecciona el modelo con mejor rendimiento para su uso.

Dado que prueba todos los valores posibles de los hiperparámetros en lugar de un subconjunto más pequeño, la búsqueda de cuadrícula es un método de ajuste exhaustivo. La desventaja de este alcance ampliado es que la búsqueda en cuadrícula requiere mucho tiempo y recursos.

Búsqueda aleatoria

En lugar de probar cada configuración posible de hiperparámetros, los algoritmos de búsqueda aleatoria eligen valores de hiperparámetros de una distribución estadística de opciones potenciales. Los científicos de datos reúnen los valores de hiperparámetros más probables, lo que aumenta las posibilidades del algoritmo de seleccionar una opción viable.

La búsqueda aleatoria es más rápida y fácil de implementar que la búsqueda en cuadrícula. Pero como no se prueban todas las combinaciones, no hay garantía de que se encuentre la mejor configuración de hiperparámetros.

Optimización bayesiana

A diferencia de las búsquedas en cuadrícula y aleatorias, la optimización bayesiana selecciona los valores de los hiperparámetros basándose en los resultados de intentos anteriores. El algoritmo utiliza los resultados de las pruebas de los valores de hiperparámetros anteriores para predecir los valores que probablemente conduzcan a mejores resultados.

La optimización bayesiana funciona construyendo un modelo probabilístico de la función objetivo. Esta función sustituta se vuelve más eficiente con el tiempo a medida que mejoran sus resultados: evita asignar recursos a valores de hiperparámetros de menor rendimiento mientras se centra en la configuración óptima.

La técnica de optimizar un modelo basado en rondas de pruebas anteriores se conoce como optimización basada en modelos secuenciales (SMBO).

Hiperbanda

La hiperbanda mejora el flujo de trabajo de la búsqueda aleatoria centrándose en las configuraciones de hiperparámetros prometedoras y descartando las búsquedas menos viables. En cada iteración de la prueba, el algoritmo de hiperbanda elimina la mitad con peores resultados de todas las configuraciones probadas.

El enfoque de "reducción sucesiva a la mitad" de hiperbanda se centra en las configuraciones más prometedoras hasta que se descubre la mejor del grupo original de candidatos.

Ajuste de modelos frente a entrenamiento de modelos

Aunque el ajuste de modelos es el proceso de descubrir los hiperparámetros óptimos, el entrenamiento del modelo es cuando se enseña a un algoritmo de machine learning a identificar patrones en su conjunto de datos y a hacer predicciones precisas a partir de datos nuevos.

El proceso de entrenamiento utiliza un algoritmo de optimización para minimizar una función de pérdida, o función objetivo, que mide la brecha entre las predicciones de un modelo y los valores reales. El objetivo es identificar la mejor combinación de ponderaciones y sesgos del modelo para el valor más bajo posible de la función objetivo. El algoritmo de optimización actualiza las ponderaciones de un modelo periódicamente durante el entrenamiento.

La familia de algoritmos de optimización de descenso de gradiente funciona descendiendo por el gradiente de la función de pérdida para descubrir su valor mínimo: el punto en el que el modelo es más preciso. Un mínimo local es un valor mínimo en una región especificada, pero puede no ser el mínimo global de la función, es decir, el valor más bajo absoluto.

No siempre es necesario identificar el mínimo global de la función de pérdidas. Se dice que un modelo ha alcanzado la convergencia cuando su función de pérdida se minimiza con éxito.

Validación cruzada, pruebas y reentrenamiento

Tras el entrenamiento, los modelos se someten a validación cruzada, es decir, se comprueban los resultados del entrenamiento con otra parte de los datos de entrenamiento. Las predicciones del modelo se comparan con los valores reales de los datos de validación. El modelo de mayor rendimiento pasa a la fase de prueba, donde se vuelve a examinar la precisión de sus predicciones antes de la implementación. La validación cruzada y las pruebas son esenciales para la evaluación de modelos de lenguaje de gran tamaño (LLM).

El reentrenamiento es una parte del ciclo de vida de la IA de MLOps (operaciones de machine learning) que reentrena de forma continua y autónoma un modelo a lo largo del tiempo para que siga funcionando al máximo.

Ajuste de modelos frente a ajuste fino

El ajuste de modelos identifica los mejores valores de hiperparámetros para el entrenamiento, mientras que el ajuste fino es el proceso de ajustar un modelo fundacional preentrenado para tareas posteriores específicas. El ajuste fino es un tipo de aprendizaje por transferencia: cuando el aprendizaje preexistente de un modelo se adapta a nuevas tareas.

Con el ajuste fino, un modelo preentrenado se entrena de nuevo en un conjunto de datos más pequeño y especializado que sea relevante para el caso de uso previsto del modelo. El entrenamiento inicial de un modelo con un conjunto de datos pequeño entraña el riesgo de sobreajuste, pero el entrenamiento con un conjunto de datos grande y generalizado ayuda a mitigar ese riesgo.

Ejemplos de hiperparámetros

Aunque cada algoritmo tiene su propio conjunto de hiperparámetros, muchos son comunes a algoritmos similares. Los hiperparámetros comunes en las redes neuronales que impulsan los modelos de lenguaje de gran tamaño (LLM) incluyen:

Índice de aprendizaje
Decaimiento de la tasa de aprendizaje
Epochs
Tamaño de lote
Momentum
Número de capas ocultas
Nodos por capa
Función de activación

Índice de aprendizaje

La tasa de aprendizaje determina la rapidez con la que un modelo actualiza sus ponderaciones durante el entrenamiento. Un ritmo de aprendizaje más alto significa que un modelo aprende más rápido, pero corre el riesgo de sobrepasar el mínimo local de su función de pérdida. Mientras tanto, una baja tasa de aprendizaje puede dar lugar a tiempos de formación excesivos, lo que aumenta la demanda de recursos y costes.

Decaimiento de la tasa de aprendizaje

La disminución de la tasa de aprendizaje es un hiperparámetro que ralentiza el ritmo de aprendizaje de un algoritmo de ML con el tiempo. El modelo actualiza sus parámetros más rápidamente al principio, y luego con mayor matiz a medida que se acerca a la convergencia, lo que reduce el riesgo de sobrepasarse.

Epochs

El entrenamiento de un modelo implica exponerlo a sus datos de entrenamiento varias veces para que actualice iterativamente sus ponderaciones. Se produce una época cada vez que el modelo procesa todo el conjunto de datos de entrenamiento, y el hiperparámetro de épocas establece el número de épocas que componen el proceso de entrenamiento.

Tamaño de lote

Los algoritmos de machine learning no procesan sus conjuntos de datos en cada iteración del algoritmo de optimización. En cambio, los datos de entrenamiento se separan en lotes y los pesos del modelo se actualizan después de cada lote. El tamaño del lote determina la cantidad de muestras de datos en cada lote.

Momentum

El impulso es la propensión de un algoritmo de ML a actualizar sus ponderaciones en la misma dirección que las actualizaciones anteriores. Piense en el impulso como la convicción de un algoritmo en su aprendizaje. Un impulso elevado lleva a un algoritmo a una convergencia más rápida a riesgo de eludir mínimos locales significativos. Mientras tanto, un bajo impulso puede hacer que un algoritmo vaya de un lado a otro con sus actualizaciones, estancando su progreso.

Número de capas ocultas

Las redes neuronales modelan la estructura del cerebro humano y contienen múltiples capas de neuronas o nodos interconectados. Esta complejidad es lo que permite que los modelos avanzados, como los modelos de transformadores, gestionen tareas generativas complejas. Menos capas hacen que el modelo sea más ágil, pero más capas abren la puerta a tareas más complejas.

Nodos por capa

Cada capa de una red neuronal tiene un número predeterminado de nodos. A medida que las capas aumentan de ancho, también lo hace la capacidad del modelo para manejar relaciones complejas entre puntos de datos, pero a costa de mayores requisitos computacionales.

Función de activación

Una función de activación es un hiperparámetro que otorga a los modelos la capacidad de crear límites no lineales entre grupos de datos. Cuando resulta imposible clasificar con precisión los puntos de datos en grupos separados por una línea recta, la activación proporciona la flexibilidad necesaria para realizar divisiones más complejas.

Una red neuronal sin función de activación es esencialmente un modelo de regresión lineal.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto en la preparación de conjuntos de datos y el empleo de modelos fundacionales.

Recursos

Lograr el ROI: agentes de IA en su negocio

Únase a IBM para un webinar en el que demostraremos cómo encontrar un ROI real a través de iniciativas de IA agéntica, con ejemplos en sectores, casos de uso e incluso las propias historias de éxito de IBM.

IBM es nombrada líder en ciencia de datos y machine learning

Descubra por qué IBM ha sido reconocido como líder en el 2025 Gartner Magic Quadrant for Data Science and Machine Learning Platforms.

De los proyectos de IA a los beneficios: cómo la IA agéntica puede mantener la rentabilidad financiera

Descubra cómo las organizaciones están pasando de lanzar la IA en proyectos piloto dispares a utilizarla para impulsar la transformación en el núcleo.

Aumente sus conocimientos sobre IA

Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio bajo.

Explore IBM Granite

IBM® Granite es una familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.

IBM AI Academy

Dirigido por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener el conocimiento necesario para priorizar las inversiones en IA que pueden impulsar el crecimiento.

AI in Action 2024

Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.

La guía del CEO de 2025: cinco cambios de mentalidad para impulsar el crecimiento empresarial

Active estos cinco cambios de mentalidad para superar la incertidumbre, impulsar la reinvención empresarial e impulsar el crecimiento con la IA agentica.

Desbloquee el poder de la IA generativa y el ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Cómo prosperar en la era de la IA con seguridad y confianza

Profundice en los tres elementos críticos de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA

Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai

Solicite una demo en directo

¿Qué es el ajuste de modelos?

Autores

¿Qué es el ajuste de modelos?

Las últimas noticias + conocimientos de IA

¿Qué son los hiperparámetros?

Hiperparámetros vs. parámetros del modelo

¿Por qué es importante el ajuste de modelos?

Sobreajuste

Sesgo

Varianza

Descifrar la IA: resumen semanal de noticias

¿Cómo funciona el ajuste de modelos?

Métodos de ajuste de modelos

Búsqueda en cuadrícula

Búsqueda aleatoria

Optimización bayesiana

Hiperbanda

Ajuste de modelos frente a entrenamiento de modelos

Validación cruzada, pruebas y reentrenamiento

Ajuste de modelos frente a ajuste fino

Ejemplos de hiperparámetros

Índice de aprendizaje

Decaimiento de la tasa de aprendizaje

Epochs

Tamaño de lote

Momentum

Número de capas ocultas

Nodos por capa

Función de activación

Share

Recursos

Las últimas noticias + conocimientos de IA