¿Qué es el entrenamiento de modelos?

El entrenamiento de modelos es el proceso de "enseñar" a un modelo de machine learning para optimizar el rendimiento con un conjunto de datos de entrenamiento de tareas de muestra relevantes para los casos de uso eventuales del modelo. Si los datos de entrenamiento se asemejan mucho a los problemas del mundo real que se le encomendarán al modelo, aprender los patrones y correlaciones permitirá que el modelo entrenado haga predicciones precisas sobre nuevos datos.

El proceso de entrenamiento es el paso más crítico en el ciclo de vida de los modelos de IA, desde los sistemas de forecasting construidos con algoritmos básicos de regresión lineal hasta las complejas neural networks que impulsan la IA generativa.

El entrenamiento de modelos es el paso del machine learning (ML) en el que se produce el "aprendizaje". En machine learning, el aprendizaje implica ajustar los parámetros de un modelo de machine learning (ML). Estos parámetros incluyen los pesos y sesgos en las funciones matemáticas que componen sus algoritmos. El objetivo de este ajuste es producir resultados más precisos. Los valores específicos de estos pesos y sesgos, que son el resultado final del entrenamiento del modelo, son la manifestación tangible del "conocimiento" de un modelo.

Matemáticamente, el objetivo de este aprendizaje es minimizar una función de pérdida que cuantifica el error de los resultados del modelo en las solicitudes de entrenamiento. Cuando la salida de la función de pérdida cae por debajo de algún umbral predeterminado, lo que significa que el error del modelo en las tareas de entrenamiento es lo suficientemente pequeño, el modelo se considera “entrenado”. En el aprendizaje por refuerzo, el objetivo se invierte: en lugar de minimizar una función de pérdida, los parámetros del modelo se optimizan para maximizar una función de recompensa.

En la práctica, el entrenamiento del modelo implica un ciclo de recopilar y curar datos, ejecutar el modelo con esos datos de entrenamiento, medir la pérdida, optimizar los parámetros en consecuencia y probar el rendimiento del modelo en conjuntos de datos de validación. Este flujo de trabajo continúa de forma iterativa hasta que se logran resultados satisfactorios. Un entrenamiento adecuado también puede requerir el ajuste de hiperparámetros (opciones estructurales que influyen en el proceso de aprendizaje pero que no son "aprendibles" en sí mismas) en un proceso llamado ajuste de hiperparámetros.

A veces, un modelo ya entrenado se puede ajustar para tareas o dominios más específicos a través de un mayor aprendizaje sobre nuevos datos de entrenamiento. Aunque tanto el entrenamiento original desde cero como el refinamiento posterior son "entrenamiento", el primero por lo general se denomina "preentrenamiento" en este contexto (con fines de desambiguación). El refinamiento es uno de varios tipos de aprendizaje por transferencia, un término general para las técnicas de machine learning que adaptan modelos previamente entrenados para nuevos usos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Modelos vs. algoritmos

Aunque las palabras “modelo” y “algoritmo” a menudo se usan indistintamente en el campo de la inteligencia artificial, no son lo mismo. La distinción radica principalmente en la relación de cada término con el entrenamiento del modelo.

Losalgoritmos son procedimientos, generalmente descritos en lenguaje matemático o pseudocódigo, utilizados para generar resultados o tomar decisiones con base en la entrada que se les proporcionan.
Los modelos son el resultado del proceso de optimización de los parámetros de un algoritmo para mejorar su rendimiento en un conjunto de datos de entrenamiento específico y luego en nuevos datos que se asemejan a esos ejemplos de entrenamiento. En términos de ciencia de datos, este proceso se denomina "ajuste" de un algoritmo a un conjunto de datos.

En otras palabras, un modelo de IA se emplea para hacer predicciones o tomar decisiones, y un algoritmo es la lógica matemática mediante la cual opera ese modelo. Dos modelos pueden usar el mismo algoritmo subyacente pero tener diferentes valores para los pesos y sesgos dentro de ese algoritmo porque se entrenaron con datos diferentes.

El aprendizaje profundo es un subconjunto del machine learning cuyos modelos son neural networks con muchas capas (de ahí que se hable de aprendizaje "profundo"), en lugar de algoritmos diseñados explícitamente, como la regresión logística o Naïve Bayes. Dos modelos de aprendizaje profundo pueden tener la misma estructura, como un autocodificador estándar, pero difieren en el número de capas, el número de neuronas por capa o las funciones de activación de cada neurona.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Tipos de entrenamiento de modelos

En la mayoría de los contextos, entrenamiento es casi sinónimo de aprendizaje: un científico de datos proporciona el entrenamiento; un modelo aprende. El aprendizaje implica ajustar los parámetros de un algoritmo de machine learning hasta que los resultados del modelo cumplan con alguna métrica de precisión o utilidad. El entrenamiento implica recopilar datos de entrenamiento y ajustar hiperparámetros, como elegir una función de pérdida, establecer la tasa de actualización de parámetros o alterar la arquitectura de una neural network para facilitar ese aprendizaje.

Los modelos de IA usualmente se categorizan como pertenecientes a uno de los tres paradigmas distintos de machine learning: aprendizaje supervisado, aprendizaje no supervisado o aprendizaje por refuerzo. Cada tipo de machine learning tiene sus propios casos de uso, hiperparámetros, algoritmos y procesos de entrenamiento.

El aprendizaje supervisado se utiliza cuando un modelo se entrena para predecir la salida "correcta" de una entrada. Se aplica a tareas que requieren cierto grado de precisión en relación con alguna "verdad fundamental" externa, como la clasificación o la regresión.

El aprendizaje no supervisado se emplea cuando se entrena un modelo para discernir patrones intrínsecos y correlaciones en los datos. A diferencia del aprendizaje supervisado, el aprendizaje no supervisado no asume la existencia de ninguna verdad fundamental externa con la que se deban comparar sus resultados.

El aprendizaje por refuerzo se utiliza cuando se entrena a un modelo para evaluar su entorno y tomar la acción que vaya a obtener la mayor recompensa.

Cabe señalar que las definiciones y distinciones entre cada paradigma de machine learning no siempre son formales o absolutas. Por ejemplo, el aprendizaje autosupervisado (SSL) puede clasificarse como aprendizaje supervisado o no supervisado, según el aspecto de las definiciones de esos términos en el que uno se centre. El aprendizaje semisupervisado combina el aprendizaje no supervisado con el supervisado.

También vale la pena señalar que a veces se pueden usar múltiples tipos de machine learning para entrenar un solo sistema de IA. Por ejemplo, las versiones de modelos de lenguaje de gran tamaño (LLM) utilizadas para aplicaciones conversacionales, como los chatbots, por lo general se someten a un entrenamiento previo autosupervisado, seguido de un ajuste supervisado y, posteriormente, aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF).

Aprendizaje supervisado

Como la forma dominante de entrenamiento para las neural networks que comprenden los modelos de aprendizaje profundo, el aprendizaje supervisado sustenta la mayoría de los modelos de IA de última generación en la actualidad. El aprendizaje supervisado es el principal paradigma de entrenamiento para tareas que requieren precisión, como la clasificación o la regresión. 

Entrenar un modelo para la precisión requiere comparar sus predicciones de resultados para una entrada específica con las predicciones "correctas" para esa entrada, generalmente llamada verdad fundamental. En el aprendizaje supervisado convencional, esa verdad fundamental proviene de pares de datos etiquetados. Por ejemplo, los datos de entrenamiento para modelos de detección de objetos emparejan imágenes sin procesar (la entrada) con versiones anotadas de las imágenes que indican la ubicación y la clasificación de cada objeto dentro de ellas (el resultado).

Debido a que este método de entrenamiento requiere que un humano esté al tanto para proporcionar esa verdad fundamental, se llama aprendizaje "supervisado". Pero la característica definitiva del aprendizaje supervisado no es la participación de humanos, sino el uso de alguna verdad fundamental y la minimización de una función de pérdida que mide la divergencia de ella. Esta distinción se volvió importante a medida que nuevas técnicas de aprendizaje innovadoras idearon formas de inferir implícitamente "pseudoetiquetas" a partir de datos no etiquetados.

Para adaptarse a una noción más versátil del aprendizaje supervisado, la terminología moderna del machine learning (ML) utiliza "supervisión" o "señales de supervisión" para referirse a cualquier fuente de verdad fundamental. En el aprendizaje autosupervisado, que es nominalmente "no supervisado" en el sentido de que utiliza datos no etiquetados, las señales de supervisión se derivan de la estructura de los propios datos no etiquetados. Por ejemplo, los LLM se entrenan previamente a través de SSL mediante la predicción de palabras enmascaradas en muestras de texto, y el texto original sirve como verdad fundamental.

Aprendizaje no supervisado

A diferencia del aprendizaje supervisado, el aprendizaje no supervisado no asume la preexistencia de respuestas "correctas" y, por lo tanto, no implica señales de supervisión ni funciones de pérdida convencionales. Los algoritmos de aprendizaje no supervisado buscan descubrir patrones intrínsecos en datos no etiquetados, como similitudes, correlaciones o agrupaciones potenciales, y son más útiles cuando dichos patrones no son necesariamente evidentes para los observadores humanos.

Las categories destacadas de algoritmos de aprendizaje no supervisado incluyen:

Los algoritmos de agrupación dividen los puntos de datos no etiquetados en "clústeres" o agrupaciones, en función de su proximidad o de la similitud entre sí. Por ejemplo, k-means clustering, un popular algoritmo de agrupación, se emplea en la segmentación de mercados para agrupar a clientes con atributos similares en $k$ grupos.
Los algoritmos de asociación distinguen correlaciones, tales como entre una acción particular y ciertas condiciones. Por ejemplo, las compañías de comercio electrónico como Amazon utilizan modelos de asociación no supervisada para potenciar los motores de recomendación.
Los algoritmos de reducción de dimensionalidad están diseñados para reducir la complejidad de los datos al representarlos con un número menor de características, es decir, representarlos en menos dimensiones, al tiempo que preservan sus características significativas. Tienen varios casos de uso, incluyendo compresión de datos, visualización de datos e ingeniería de características.

Como su nombre indica, los algoritmos de aprendizaje no supervisado pueden entenderse en términos generales como que "se optimizan a sí mismos". Por ejemplo, esta animación del profesor de la Universidad de Utah, Andrey Shabalin, Ph.D., demuestra cómo un algoritmo de agrupamiento k-means optimiza iterativamente el centroide de cada clúster.

Como tal, entrenar modelos de IA que utilizan algoritmos de aprendizaje no supervisados es comúnmente una cuestión de ajuste de hiperparámetros. Por ejemplo, en un algoritmo de agrupamiento, el número ideal de clústeres ( $k$ ) no siempre es obvio y puede requerir experimentación manual para obtener resultados óptimos.

Aprendizaje por refuerzo

Mientras que el aprendizaje supervisado entrena modelos optimizándolos para que coincidan con ejemplares ideales y los algoritmos de aprendizaje no supervisado se ajustan a un conjunto de datos, los modelos de aprendizaje por refuerzo se entrenan de manera integral a través de ensayo y error. Los problemas de refuerzo no implican una respuesta singular “correcta”; en cambio, implican decisiones “buenas” y decisiones “malas” (o quizás neutrales).

En lugar de los pares independientes de datos de entrada-resultados utilizados en el aprendizaje supervisado, el aprendizaje por refuerzo (RL) opera en tuplas de datos interdependientes de estado-acción-recompensa. Un marco matemático para el aprendizaje por refuerzo se basa principalmente en estos componentes:

El espacio de estado contiene toda la información disponible relevante para las decisiones que el modelo podría tomar. Por lo general, cambia con cada acción que realiza el modelo.
El espacio de acción contiene todas las decisiones que el modelo puede tomar en determinado momento. En un juego de mesa, el espacio de acción comprende todos los movimientos legales disponibles en ese momento. En la generación de texto, el espacio de acción comprende todo el "vocabulario" de tokens disponibles para un LLM.
La función de recompensa determina la retroalimentación positiva (o negativa) que se proporciona al modelo como resultado de cada acción en una señal de recompensa: una cuantificación escalar de esa retroalimentación. Por ejemplo, al entrenar un programa de ajedrez con RL, una función de recompensa podría incentivar movidas que aumenten la probabilidad de ganar y desincentivar movidas que disminuyan la probabilidad de victoria. Al entrenar un automóvil autónomo, una función de recompensa podría desincentivar las maniobras que infringen las leyes o disminuyen la probabilidad de seguridad.
Una política es el “razonamiento” que impulsa el comportamiento de un agente de RL. Matemáticamente hablando, una política ( $π$ ) es una función que toma un estado ( $s$ ) como entrada y devuelve una acción ( $a$ ): $π (s) \to a$ .

El objetivo de un algoritmo de RL es optimizar una política para obtener una recompensa máxima. En el aprendizaje profundo por refuerzo, la política se representa como una neural network cuyos parámetros se actualizan continuamente para maximizar la función de recompensa (en lugar de minimizar una función de pérdida).

Cómo entrenar un modelo de machine learning

El ciclo de vida del desarrollo del modelo comprende varios procesos, algunos de los cuales se repiten cíclicamente de manera iterativa hasta que se logran resultados satisfactorios.

Aunque el aprendizaje por refuerzo, el aprendizaje supervisado y el aprendizaje no supervisado tienen elementos de entrenamiento que son exclusivos de su paradigma, el flujo de trabajo general necesario para entrenar un modelo consta de estos pasos:

Selección de modelos
Recopilación de datos
Preparación de datos
Selección de hiperparámetros
Rendimiento de los datos de entrenamiento
Cálculo de la pérdida (o recompensa)
Optimización de parámetros
Evaluación del modelo

Selección del modelo

Seleccionar el algoritmo (o la arquitectura de la neural network) adecuado no depende únicamente del problema que debe resolver ni de los tipos de datos con los que trabajará el modelo. El tipo de modelo ideal también depende de si prioriza la velocidad y la eficiencia sobre la precisión y el rendimiento (o al revés), y del presupuesto y los recursos de hardware o computación disponibles. Por ejemplo, entrenar o ajustar un LLM a menudo requiere múltiples unidades de procesamiento de gráficos (GPU).

Recopilación de datos

Obtener datos de entrenamiento de alta calidad para su caso de uso no es trivial, especialmente para los modelos de aprendizaje profundo que a menudo requieren muchos miles, si no millones, de ejemplos para un entrenamiento adecuado. Aunque un pipeline de datos patentado presenta oportunidades únicas de personalización y ventajas competitivas, existen conjuntos de datos de código abierto de buena reputación disponibles para la mayoría de los dominios y tareas. En algunos campos, particularmente en el procesamiento de lenguaje natural (PLN), la generación de datos sintéticos es una opción cada vez más viable.

Preparación de datos

Para utilizarse en el entrenamiento, los datos sin procesar, especialmente cuando se recopilan de primera mano o se recogen de múltiples fuentes de datos, por lo general requieren cierto procesamiento previo, que puede incluir la limpieza de los datos, la normalización de los valores y la estandarización del formato. Existen muchos servicios para automatizar parte o la totalidad de este proceso, como Docling, una herramienta de código abierto que convierte archivos PDF y otros formatos de archivo en texto más legible por máquina, al tiempo que conserva elementos estructurales importantes.

Para el aprendizaje supervisado, los datos deben etiquetarse y, a veces, anotarse con detalles significativos. Por ejemplo, las imágenes empleadas para entrenar modelos de segmentación de imágenes deben etiquetarse hasta el nivel de pixel. Este etiquetado puede implicar una cantidad significativa de tiempo y mano de obra, que deben tenerse en cuenta para los plazos y el presupuesto.

Selección de hiperparámetros

Incluso cuando ya haya elegido un algoritmo o una arquitectura de modelo, aún tiene más elecciones que hacer. Los algoritmos de aprendizaje automático (ML) convencionales rara vez son de un solo tamaño para todos, y las redes neuronales están aún menos estandarizadas. Seleccionar los hiperparámetros correctos, los elementos modulares de un algoritmo que son externos a la optimización de parámetros, es esencial para un entrenamiento eficiente y exitoso.

Cuando el entrenamiento no se desarrolla satisfactoriamente, o cuando se trabaja con algoritmos de aprendizaje no supervisado o algoritmos de aprendizaje supervisado no paramétrico, como decision trees, el rendimiento del modelo se puede ajustar y mejorar mediante el ajuste de hiperparámetros. Es posible que sea necesario un poco de prueba y error para llegar a la tasa de aprendizaje óptima, el tamaño del lote, la función de pérdida (y los términos de regularización) o el algoritmo de optimización.

Uno de esos parámetros es la inicialización de los parámetros que se pueden aprender. Por lo general, son aleatorios, pero incluso la aleatorización de parámetros tiene múltiples estrategias. Los parámetros iniciales óptimos también se pueden "aprender" a través de una técnica llamada metaaprendizaje .

Acciones sobre los datos de entrenamiento

Una vez que se establecieron los parámetros iniciales y los hiperparámetros, el modelo procesa un lote de ejemplos de datos de entrada extraídos del conjunto de datos de entrenamiento. Debido a que los parámetros iniciales son aleatorios, el modelo generalmente aún no produce resultados "buenos". El objetivo de la primera ejecución de entrenamiento es simplemente establecer una línea basal para luego optimizar. El tamaño del lote (la cantidad de ejemplos que se procesan en cada “lote” antes de calcular la pérdida y optimizar los parámetros) es en sí mismo un hiperparámetro importante.

Existen muchos marcos de código abierto para configurar y ejecutar modelos de machine learning para entrenamiento, como PyTorch, Keras o TensorFlow. La mayoría opera en Python o JavaScript y, al ser proyectos impulsados por la comunidad, ofrecen amplias bibliotecas de contenido tutorial para principiantes.

Cálculo de la pérdida (o recompensa)

A medida que su modelo funciona a través de ejemplos de entrenamiento, la función de pérdida elegida rastrea la discrepancia entre los resultados del modelo y las actualizaciones “correctas” para cada entrada. En el aprendizaje profundo, en el que los modelos son neural networks que comprenden varias ecuaciones anidadas entre sí, la retropropagación se utiliza para calcular cómo cada nodo de la red neuronal contribuye a la pérdida general.

En el aprendizaje supervisado, el objetivo formal del entrenamiento por lo general es minimizar esa función de pérdida. Algunas arquitecturas de modelos, como los autocodificadores variacionales (VAE), reformulan el problema en términos de maximizar algún proxy para la función de pérdida. Los algoritmos de RL suelen buscar maximizar una función de recompensa y, a veces, minimizar simultáneamente un término de regularización que penaliza los comportamientos no deseados.

Optimización de parámetros

La optimización de un algoritmo de machine learning (ML) generalmente se realiza mediante un algoritmo separado. En matemáticas, un algoritmo de optimización está diseñado para minimizar o maximizar alguna otra función, en este caso, una función de pérdida o una función de recompensa, determinando valores óptimos para las variables en esa función. En el machine learning (ML), esas variables son los pesos y sesgos en un algoritmo o entre diferentes nodos de una red neuronal.

El algoritmo de optimización ideal depende del tipo de modelo que se esté entrenando. Muchos algoritmos de machine learning (ML), y especialmente los modelos basados en neural networks, emplean variaciones del descenso de gradiente. Ciertos algoritmos con funciones cuadráticas, como las máquinas de vectores de soporte (SVM), podrían funcionar mejor con programación cuadrática. Los algoritmos de regresión lineal normalmente se optimizan mediante algoritmos de mínimos cuadrados. El aprendizaje de refuerzo tiene sus propios algoritmos de optimización, como la optimización de políticas proximales (PPO), la optimización de políticas directas (DPO) o la crítica de actores con beneficio (A2C). 

Esta secuencia de pasos de entrenamiento (ajuste de hiperparámetros, ejecución del modelo en un lote de datos de entrenamiento, cálculo de pérdidas y optimización de parámetros) se repite en múltiples iteraciones hasta que la pérdida se haya minimizado lo suficiente.

Evaluación del modelo

Un buen rendimiento de los datos de entrenamiento no es, en sí mismo, una evidencia concluyente de que el modelo haya sido entrenado y preparado con éxito para su despliegue en el mundo real. Se debe tener cuidado para evitar el sobreajuste, en el que un modelo ha memorizado esencialmente los datos de entrenamiento, pero no puede generalizar bien a nuevos datos (lo que frustra el propósito del entrenamiento). El sobreajuste puede entenderse como el equivalente de machine learning de "enseñar para la prueba".

Para evitar el sobreajuste, la práctica estándar es reservar una parte del conjunto de datos de entrenamiento en un proceso llamado validación cruzada. Este proceso permite que el modelo se pruebe con datos nuevos que no ha visto, lo que garantiza que se haya entrenado adecuadamente.

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

¿Qué es el entrenamiento de modelos?