¿Qué es el ajuste de hiperparámetros?

Fecha de publicación: 23 de julio de 2024
Colaboradores: Ivan Belcic, Cole Stryker

El ajuste de hiperparámetros es la práctica de identificar y seleccionar los hiperparámetros óptimos para su uso en el entrenamiento de un modelo de aprendizaje automático. Cuando se realiza correctamente, el ajuste de hiperparámetros minimiza la función de pérdida de un modelo de aprendizaje automático, lo que significa que el rendimiento del modelo se entrena para que sea lo más preciso posible.

El ajuste de hiperparámetros es una práctica experimental, en la que cada iteración prueba diferentes valores de hiperparámetros hasta que se identifican los mejores. Este proceso es crítico para el rendimiento del modelo, ya que los hiperparámetros rigen su proceso de aprendizaje. La cantidad de neuronas en una neural network, el índice de aprendizaje de un modelo de IA generativa y el tamaño del kernel de una máquina de vectores de soporte son ejemplos de hiperparámetros.

Un buen ajuste de hiperparámetros significa un rendimiento general más estable del modelo de aprendizaje automático de acuerdo con las métricas para su tarea prevista. Es por eso que el ajuste de hiperparámetros también se conoce como optimización de hiperparámetros.

Cómo elegir el modelo fundacional de IA adecuado

Descubra cómo elegir el enfoque adecuado para preparar conjuntos de datos y emplear modelos de IA.

Contenido relacionado

La guía del CEO para la IA generativa

¿Qué son los hiperparámetros?

Los hiperparámetros son variables de configuración que los científicos de datos establecen con anticipación para gestionar el proceso de entrenamiento de un modelo de aprendizaje automático. La IA generativa y otros modelos probabilísticos aplican sus aprendizajes de los datos de entrenamiento para predecir el resultado más probable de una tarea. Encontrar la combinación correcta de hiperparámetros es fundamental para obtener el mejor rendimiento de los modelos de aprendizaje supervisado y no supervisado.

Hiperparámetros de regularización

Los hiperparámetros de regularización controlan la capacidad o flexibilidad del modelo, que es el margen de maniobra que tiene al interpretar los datos. Si se aplica una mano demasiado suave, el modelo no podrá ser lo suficientemente específico como para hacer buenas predicciones. Si se va demasiado lejos, el modelo sufrirá un sobreajuste: cuando se sobreadapta a sus datos de entrenamiento y termina siendo demasiado específico para su uso en el mundo real.

Hiperparámetros vs. parámetros del modelo

La principal diferencia entre los hiperparámetros y los parámetros del modelo en la ciencia de datos es que, mientras que los modelos aprenden o estiman los parámetros a partir de los conjuntos de datos de entrenamiento que ingieren, los científicos de datos definen los hiperparámetros para el algoritmo del modelo antes de que comience el proceso de entrenamiento. Los modelos continúan actualizando los parámetros a medida que funcionan, mientras que los valores óptimos de los hiperparámetros de un modelo se identifican y establecen con anticipación.

¿Por qué es importante el ajuste de hiperparámetros?

El ajuste de hiperparámetros es importante porque sienta las bases para la estructura, la eficiencia del entrenamiento y el rendimiento de un modelo. Las configuraciones óptimas de hiperparámetros conducen a un rendimiento estable del modelo en el mundo real. Las operaciones de modelos de lenguaje de gran tamaño (LLMOps) enfatizan el aspecto de eficiencia de un buen ajuste, con énfasis en minimizar los requisitos de potencia computacional.

Sesgo y varianza

El objetivo del ajuste de hiperparámetros es equilibrar la compensación entre sesgo y varianza. El sesgo es la divergencia entre las predicciones de un modelo y la realidad. Los modelos que no están bien ajustados o subajustados no pueden discernir las relaciones clave entre los puntos de datos y no pueden sacar las conclusiones necesarias para un rendimiento preciso.

La varianza es la sensibilidad de un modelo a los nuevos datos. Un modelo confiable debe ofrecer resultados consistentes al migrar de sus datos de entrenamiento a otros conjuntos de datos. Sin embargo, los modelos con altos niveles de varianza son demasiado complejos: están sobreajustados a sus conjuntos de datos de entrenamiento originales y tienen dificultades para adaptar los nuevos datos.

Los modelos con bajo sesgo son precisos, mientras que los modelos con baja varianza son coherentes. Un buen ajuste de hiperparámetros optimiza para que ambos creen el mejor modelo para el trabajo y, al mismo tiempo, maximizan la eficiencia de los recursos computacionales durante el entrenamiento.

Ejemplos de hiperparámetros

Cada algoritmo de aprendizaje automático favorece su propio conjunto de hiperparámetros, y no es necesario optimizarlos en todos los casos. A veces, un enfoque más conservador al ajustar hiperparámetros conducirá a un mejor rendimiento.

Hiperparámetros de neural network

Neural Networks se inspira en el cerebro humano y está compuesta por nodos interconectados que se envían señales entre sí. En general, estos son algunos de los hiperparámetros más comunes para el entrenamiento de modelos de Neural Networks:

Índice de aprendizaje

El índice e aprendizaje establece la velocidad a la que un modelo ajusta sus parámetros en cada iteración. Estos ajustes se conocen como pasos. Una alto índice de aprendizaje significa que un modelo se ajustará más rápidamente, pero con el riesgo de un rendimiento inestable y una desviación de los datos. Mientras tanto, si bien un índice de aprendizaje bajo requiere más tiempo y más datos, también hace que sea más probable que los científicos de datos identifiquen la pérdida mínima de un modelo. La optimización del descenso del gradiente es un ejemplo de una métrica de entrenamiento que requiere un índice de aprendizaje establecido.

Disminución del índice de aprendizaje

La disminución del índice de aprendizaje establece la velocidad a la que índice de aprendizaje de una red disminuye con el tiempo, lo que permite que el modelo aprenda más rápidamente. La progresión del entrenamiento de un algoritmo desde su activación inicial hasta su rendimiento ideal se conoce como convergencia.

Tamaño de lote

El tamaño del lote establece la cantidad de muestras que calculará el modelo antes de actualizar sus parámetros. Tiene un efecto significativo tanto en la eficiencia informática como en la precisión del proceso de entrenamiento. Por sí solo, un tamaño de lote más alto socava el rendimiento general, pero ajustar el índice de aprendizaje junto con el tamaño del lote puede mitigar esta pérdida.

Número de capas ocultas

El número de capas ocultas en una neural network determina su profundidad, lo que afecta su complejidad y capacidad de aprendizaje. Menos capas dan como resultado un modelo más simple y rápido, pero más capas (como en las redes de aprendizaje profundo) conducen a una mejor clasificación de los datos de entrada. Para identificar el valor óptimo del hiperparámetro entre todas las combinaciones posibles se necesita encontrar un equilibrio entre velocidad y precisión.

Número de nodos o neuronas por capa

El número de nodos o neuronas por capa establece el ancho del modelo. Cuantos más nodos o neuronas por capa, mayor es la amplitud del modelo y más capaz es de representar relaciones complejas entre puntos de datos.

Momentum

El impulso es el grado en que los modelos actualizan los parámetros en la misma dirección que las iteraciones anteriores, en lugar de revertir el curso. La mayoría de los científicos de datos comienzan con un valor de hiperparámetro más bajo para el impulso y luego lo ajustan hacia arriba según sea necesario para mantener el modelo en curso a medida que toma datos de entrenamiento.

Épocas

Épocas es un hiperparámetro que establece la cantidad de veces que un modelo se expone a todo su conjunto de datos de entrenamiento durante el proceso de entrenamiento. Una mayor exposición puede conducir a un mejor rendimiento, pero corre el riesgo de sobreajuste.

Función de activación

La función de activación introduce no linealidad en un modelo, lo que le permite manejar conjuntos de datos más complejos. Los modelos no lineales pueden generalizar y adaptar a una mayor variedad de datos.

Hiperparámetros de SVM

Máquina de ventores de soporte (SVM) es un algoritmo de aprendizaje automático especializado en la clasificación de datos, la regresión y la detección de valores atípicos. Tiene sus propios hiperparámetros esenciales:

Hiperparámetro SVM: C

C es la relación entre el margen de error aceptable y el número de errores resultante cuando un modelo actúa como clasificador de datos. Un valor C más bajo establece un límite de decisión suave con una mayor tolerancia al error y un rendimiento más genérico, pero con un riesgo de clasificación incorrecta de los datos. Mientras tanto, un valor C alto crea un límite de decisión nítido para obtener resultados de entrenamiento más precisos, pero con un posible sobreajuste.

Hiperparámetro SVM: kernel

Kernel es una función que establece la naturaleza de las relaciones entre los puntos de datos y los separa en grupos en consecuencia. Dependiendo del kernel empleado, los puntos de datos mostrarán diferentes relaciones, lo que puede afectar en gran medida el rendimiento general del modelo SVM. Lineal, polinomial, función de base radial (RBF) y sigmoide son algunos de los kernels más empleados. Los kernels lineales son más simples y mejores para datos fácilmente separables, mientras que los kernels no lineales son mejores para conjuntos de datos más complejos.

Hiperparámetro SVM: gamma

Gamma establece el nivel de influencia que los vectores de soporte tienen en el límite de decisión. Los vectores de soporte son los puntos de datos más cercanos al hiperplano: el límite entre grupos de datos. Los valores más altos atraen una fuerte influencia de los vectores cercanos, mientras que los valores más bajos limitan la influencia de los más distantes. Establecer un valor gamma demasiado alto puede causar un sobreajuste, mientras que un valor demasiado bajo puede enturbiar el límite de decisión.

Hiperparámetros de XGBoost

XGBoost significa “impulso de gradiente extremo” y es un algoritmo de conjunto que combina las predicciones de varios modelos más débiles, conocidos como decision trees, para obtener un resultado más preciso. Los algoritmos impulsados por gradiente tienden a superar a los modelos de bosque aleatorio, otro tipo de algoritmo de conjunto que comprende múltiples decision trees.

Los hiperparámetros más importantes para XGBoost son:

learning_rate

learning_rate es similar al hiperparámetro de índice de aprendizaje utilizado por neural networks. Esta función controla el nivel de corrección realizada durante cada ronda de entrenamiento. Los valores potenciales varían de 0 a 1, siendo 0.3 el valor predeterminado.

n_estimators

n_estimators establece el número de árboles en el modelo. Este hiperparámetro se conoce como num_boost_rounds en el XGBoost original, mientras que la popular API de Python scikit-learn introdujo el nombre n_estimators.

max_depth

max_depth determina la arquitectura de los decision trees, estableciendo la cantidad máxima de nodos del árbol a cada hoja, el clasificador final. Más nodos conducen a una clasificación de datos más matizada, mientras que los árboles más pequeños evitan fácilmente el sobreajuste.

min_child_weight

min_child_weight es la ponderación mínima (la importancia de una clase determinada para el proceso global de entrenamiento del modelo) necesaria para generar un nuevo árbol. Las ponderaciones mínimas más bajas crean más árboles, pero con un posible sobreajuste, mientras que las ponderaciones más altas reducen la complejidad al requerir más datos para dividir los árboles.

subsample

subsample establece el porcentaje de muestras de datos empleadas durante cada ronda de entrenamiento, y colsample_bytree fija el porcentaje de características a emplear en la construcción del árbol.

¿Cómo funciona el ajuste de hiperparámetros?

El ajuste de hiperparámetros se centra alrededor de la función objetivo, que analiza un grupo, o tupla, de hiperparámetros y calcula la pérdida proyectada. El ajuste óptimo de hiperparámetros minimiza la pérdida de acuerdo con las métricas elegidas. Los resultados se confirman mediante validación cruzada, que mide qué tan de cerca se generalizan a otros conjuntos de datos fuera de la instancia de capacitación específica.

Métodos de ajuste de hiperparámetros

Los científicos de datos tienen una variedad de métodos de ajuste de hiperparámetros a su disposición, cada uno con sus respectivas fortalezas y debilidades. El ajuste de hiperparámetros se puede realizar de forma manual o automatizada como parte de una estrategia AutoML (machine learning automático).

Búsqueda en cuadrícula

La búsqueda en cuadrícula es un método de ajuste de hiperparámetros completo y exhaustivo. Después de que los científicos de datos establecen todos los valores posibles para cada hiperparámetro, una búsqueda en cuadrícula construye modelos para cada configuración posible de esos valores de hiperparámetros discretos. Cada uno de estos modelos se evalúa para determinar su rendimiento y se compara entre sí, y finalmente se selecciona el mejor modelo para el entrenamiento.

De esta manera, la búsqueda en cuadrícula es similar a la fuerza bruta de un PIN ingresando cada combinación potencial de números hasta que se descubre la secuencia correcta. Si bien permite a los científicos de datos considerar todas las configuraciones posibles en el espacio de hiperparámetros, la búsqueda en cuadrícula es ineficiente y requiere muchos recursos computacionales.

Búsqueda aleatoria

La búsqueda aleatoria difiere de la búsqueda en cuadrícula en que los científicos de datos proporcionan distribuciones estadísticas en lugar de valores discretos para cada hiperparámetro. Una búsqueda aleatoria extrae muestras de cada rango y construye modelos para cada combinación. A lo largo de varias iteraciones, los modelos se comparan entre sí hasta encontrar el mejor.

La búsqueda aleatoria es preferible a la búsqueda en cuadrícula en situaciones en las que el espacio de búsqueda de hiperparámetros contiene grandes distribuciones; simplemente requeriría demasiado esfuerzo probar cada valor discreto. Los algoritmos de búsqueda aleatoria pueden arrojar resultados comparables a la búsqueda en cuadrícula en un tiempo considerablemente menor, aunque no se garantiza que descubran la configuración de hiperparámetros óptima.

Optimización bayesiana

La optimización bayesiana es un algoritmo de optimización secuencial basado en modelos (SMBO) en el que cada iteración de las pruebas mejora el método de ejemplificación de la siguiente. Tanto las búsquedas en cuadrícula como las aleatorias se pueden realizar simultáneamente, pero cada prueba se realiza de forma aislada: los científicos de datos no pueden usar lo que aprendieron para fundamentar pruebas posteriores.

Con base en pruebas anteriores, la optimización bayesiana selecciona de forma probabilística un nuevo conjunto de valores de hiperparámetros que probablemente produzca mejores resultados. El modelo probabilístico se considera un sustituto de la función objetivo original. Debido a que los modelos sustitutos son computacionalmente eficientes, generalmente se actualizan y mejoran cada vez que se ejecuta la función objetivo.

Cuanto mejor sea el sustituto para predecir hiperparámetros óptimos, más rápido se vuelve el proceso, y se requerirán menos pruebas de función objetiva. Esto hace que la optimización bayesiana sea mucho más eficiente que los otros métodos, ya que no se pierde tiempo en combinaciones inadecuadas de valores de hiperparámetros.

El proceso de determinar estadísticamente la relación entre un resultado (en este caso, el mejor rendimiento del modelo) y un conjunto de variables se conoce como análisis de regresión. Los procesos gaussianos son una de esos populares SMBO entre los científicos de datos.

Hyperband

Introducido en 2016, Hyperband (enlace externo a ibm.com) está diseñado para mejorar la búsqueda aleatoria al truncar el uso de configuraciones de entrenamiento que no ofrecen resultados sólidos mientras que asignan más recursos a configuraciones positivas.

Esta “interrupción temprana” se logra mediante la reducción a la mitad sucesiva, un proceso que reduce el conjunto de configuraciones eliminando la mitad de peor rendimiento luego de cada ronda de entrenamiento. El 50 % superior de cada lote se lleva a la siguiente iteración hasta que queda una configuración óptima de hiperparámetros.

Productos y soluciones relacionados

watsonx.ai

Ahora disponible: estudio empresarial de próxima generación para que los creadores de IA entrenen, validen, ajusten e implementen modelos de IA.

Explore watsonx.ai

Modelos fundacionales en watsonx.ai

Explore la biblioteca de modelos fundacionales de IBM en la plataforma watsonx para escalar la IA generativa para su negocio con confianza.

Descubra los modelos fundacionales en watsonx.ai

Modelos Granite

IBM® Granite™ es una familia de modelos de inteligencia artificial (IA) construidos específicamente para empresas, diseñados desde cero para ayudar a garantizar la confianza y escalabilidad en las aplicaciones impulsadas por IA. Los modelos de Granite de código abierto están disponibles hoy.

Explorar los modelos Granite

Recursos

La IA responsable es un beneficio competitivo

En la era de la IA generativa, la promesa de la tecnología crece diariamente a medida que las organizaciones desbloquean sus nuevas posibilidades. Sin embargo, la verdadera medida del avance de la IA va más allá de sus capacidades técnicas.

¿Qué es la inteligencia artificial?

La inteligencia artificial, o IA, es tecnología que permite que las computadoras simulen la inteligencia humana y las capacidades humanas de resolución de problemas.

¿Los modelos de lenguaje de gran tamaño siempre son mejores?

En la carrera por dominar la IA, más grande suele ser mejor. Más datos y más parámetros crean sistemas de IA más grandes, que no solo son más poderosos sino también más eficientes y rápidos, y generalmente crean menos errores que los sistemas más pequeños.

Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Reserve una demostración en vivo