El entrenamiento de modelos es el proceso de "enseñar" a un modelo de machine learning para optimizar el rendimiento con un conjunto de datos de entrenamiento de tareas de muestra relevantes para los casos de uso eventuales del modelo. Si los datos de entrenamiento se asemejan mucho a los problemas del mundo real que se le encomendarán al modelo, aprender los patrones y correlaciones permitirá que el modelo entrenado haga predicciones precisas sobre nuevos datos.
El proceso de entrenamiento es el paso más crítico en el ciclo de vida de los modelos de IA, desde los sistemas de forecasting construidos con algoritmos básicos de regresión lineal hasta las complejas neural networks que impulsan la IA generativa.
El entrenamiento de modelos es el paso del machine learning (ML) en el que se produce el "aprendizaje". En machine learning, el aprendizaje implica ajustar los parámetros de un modelo de machine learning (ML). Estos parámetros incluyen los pesos y sesgos en las funciones matemáticas que componen sus algoritmos. El objetivo de este ajuste es producir resultados más precisos. Los valores específicos de estos pesos y sesgos, que son el resultado final del entrenamiento del modelo, son la manifestación tangible del "conocimiento" de un modelo.
Matemáticamente, el objetivo de este aprendizaje es minimizar una función de pérdida que cuantifica el error de los resultados del modelo en las solicitudes de entrenamiento. Cuando la salida de la función de pérdida cae por debajo de algún umbral predeterminado, lo que significa que el error del modelo en las tareas de entrenamiento es lo suficientemente pequeño, el modelo se considera “entrenado”. En el aprendizaje por refuerzo, el objetivo se invierte: en lugar de minimizar una función de pérdida, los parámetros del modelo se optimizan para maximizar una función de recompensa.
En la práctica, el entrenamiento del modelo implica un ciclo de recopilar y curar datos, ejecutar el modelo con esos datos de entrenamiento, medir la pérdida, optimizar los parámetros en consecuencia y probar el rendimiento del modelo en conjuntos de datos de validación. Este flujo de trabajo continúa de forma iterativa hasta que se logran resultados satisfactorios. Un entrenamiento adecuado también puede requerir el ajuste de hiperparámetros (opciones estructurales que influyen en el proceso de aprendizaje pero que no son "aprendibles" en sí mismas) en un proceso llamado ajuste de hiperparámetros.
A veces, un modelo ya entrenado se puede ajustar para tareas o dominios más específicos a través de un mayor aprendizaje sobre nuevos datos de entrenamiento. Aunque tanto el entrenamiento original desde cero como el refinamiento posterior son "entrenamiento", el primero por lo general se denomina "preentrenamiento" en este contexto (con fines de desambiguación). El refinamiento es uno de varios tipos de aprendizaje por transferencia, un término general para las técnicas de machine learning que adaptan modelos previamente entrenados para nuevos usos.
Aunque las palabras “modelo” y “algoritmo” a menudo se usan indistintamente en el campo de la inteligencia artificial, no son lo mismo. La distinción radica principalmente en la relación de cada término con el entrenamiento del modelo.
En otras palabras, un modelo de IA se emplea para hacer predicciones o tomar decisiones, y un algoritmo es la lógica matemática mediante la cual opera ese modelo. Dos modelos pueden usar el mismo algoritmo subyacente pero tener diferentes valores para los pesos y sesgos dentro de ese algoritmo porque se entrenaron con datos diferentes.
El aprendizaje profundo es un subconjunto del machine learning cuyos modelos son neural networks con muchas capas (de ahí que se hable de aprendizaje "profundo"), en lugar de algoritmos diseñados explícitamente, como la regresión logística o Naïve Bayes. Dos modelos de aprendizaje profundo pueden tener la misma estructura, como un autocodificador estándar, pero difieren en el número de capas, el número de neuronas por capa o las funciones de activación de cada neurona.
En la mayoría de los contextos, entrenamiento es casi sinónimo de aprendizaje: un científico de datos proporciona el entrenamiento; un modelo aprende. El aprendizaje implica ajustar los parámetros de un algoritmo de machine learning hasta que los resultados del modelo cumplan con alguna métrica de precisión o utilidad. El entrenamiento implica recopilar datos de entrenamiento y ajustar hiperparámetros, como elegir una función de pérdida, establecer la tasa de actualización de parámetros o alterar la arquitectura de una neural network para facilitar ese aprendizaje.
Los modelos de IA usualmente se categorizan como pertenecientes a uno de los tres paradigmas distintos de machine learning: aprendizaje supervisado, aprendizaje no supervisado o aprendizaje por refuerzo. Cada tipo de machine learning tiene sus propios casos de uso, hiperparámetros, algoritmos y procesos de entrenamiento.
El aprendizaje supervisado se utiliza cuando un modelo se entrena para predecir la salida "correcta" de una entrada. Se aplica a tareas que requieren cierto grado de precisión en relación con alguna "verdad fundamental" externa, como la clasificación o la regresión.
El aprendizaje no supervisado se emplea cuando se entrena un modelo para discernir patrones intrínsecos y correlaciones en los datos. A diferencia del aprendizaje supervisado, el aprendizaje no supervisado no asume la existencia de ninguna verdad fundamental externa con la que se deban comparar sus resultados.
El aprendizaje por refuerzo se utiliza cuando se entrena a un modelo para evaluar su entorno y tomar la acción que vaya a obtener la mayor recompensa.
Cabe señalar que las definiciones y distinciones entre cada paradigma de machine learning no siempre son formales o absolutas. Por ejemplo, el aprendizaje autosupervisado (SSL) puede clasificarse como aprendizaje supervisado o no supervisado, según el aspecto de las definiciones de esos términos en el que uno se centre. El aprendizaje semisupervisado combina el aprendizaje no supervisado con el supervisado.
También vale la pena señalar que a veces se pueden usar múltiples tipos de machine learning para entrenar un solo sistema de IA. Por ejemplo, las versiones de modelos de lenguaje de gran tamaño (LLM) utilizadas para aplicaciones conversacionales, como los chatbots, por lo general se someten a un entrenamiento previo autosupervisado, seguido de un ajuste supervisado y, posteriormente, aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF).
Como la forma dominante de entrenamiento para las neural networks que comprenden los modelos de aprendizaje profundo, el aprendizaje supervisado sustenta la mayoría de los modelos de IA de última generación en la actualidad. El aprendizaje supervisado es el principal paradigma de entrenamiento para tareas que requieren precisión, como la clasificación o la regresión.
Entrenar un modelo para la precisión requiere comparar sus predicciones de resultados para una entrada específica con las predicciones "correctas" para esa entrada, generalmente llamada verdad fundamental. En el aprendizaje supervisado convencional, esa verdad fundamental proviene de pares de datos etiquetados. Por ejemplo, los datos de entrenamiento para modelos de detección de objetos emparejan imágenes sin procesar (la entrada) con versiones anotadas de las imágenes que indican la ubicación y la clasificación de cada objeto dentro de ellas (el resultado).
Debido a que este método de entrenamiento requiere que un humano esté al tanto para proporcionar esa verdad fundamental, se llama aprendizaje "supervisado". Pero la característica definitiva del aprendizaje supervisado no es la participación de humanos, sino el uso de alguna verdad fundamental y la minimización de una función de pérdida que mide la divergencia de ella. Esta distinción se volvió importante a medida que nuevas técnicas de aprendizaje innovadoras idearon formas de inferir implícitamente "pseudoetiquetas" a partir de datos no etiquetados.
Para adaptarse a una noción más versátil del aprendizaje supervisado, la terminología moderna del machine learning (ML) utiliza "supervisión" o "señales de supervisión" para referirse a cualquier fuente de verdad fundamental. En el aprendizaje autosupervisado, que es nominalmente "no supervisado" en el sentido de que utiliza datos no etiquetados, las señales de supervisión se derivan de la estructura de los propios datos no etiquetados. Por ejemplo, los LLM se entrenan previamente a través de SSL mediante la predicción de palabras enmascaradas en muestras de texto, y el texto original sirve como verdad fundamental.
A diferencia del aprendizaje supervisado, el aprendizaje no supervisado no asume la preexistencia de respuestas "correctas" y, por lo tanto, no implica señales de supervisión ni funciones de pérdida convencionales. Los algoritmos de aprendizaje no supervisado buscan descubrir patrones intrínsecos en datos no etiquetados, como similitudes, correlaciones o agrupaciones potenciales, y son más útiles cuando dichos patrones no son necesariamente evidentes para los observadores humanos.
Las categories destacadas de algoritmos de aprendizaje no supervisado incluyen:
Como su nombre indica, los algoritmos de aprendizaje no supervisado pueden entenderse en términos generales como que "se optimizan a sí mismos". Por ejemplo, esta animación del profesor de la Universidad de Utah, Andrey Shabalin, Ph.D., demuestra cómo un algoritmo de agrupamiento k-means optimiza iterativamente el centroide de cada clúster.
Como tal, entrenar modelos de IA que utilizan algoritmos de aprendizaje no supervisados es comúnmente una cuestión de ajuste de hiperparámetros. Por ejemplo, en un algoritmo de agrupamiento, el número ideal de clústeres () no siempre es obvio y puede requerir experimentación manual para obtener resultados óptimos.
Mientras que el aprendizaje supervisado entrena modelos optimizándolos para que coincidan con ejemplares ideales y los algoritmos de aprendizaje no supervisado se ajustan a un conjunto de datos, los modelos de aprendizaje por refuerzo se entrenan de manera integral a través de ensayo y error. Los problemas de refuerzo no implican una respuesta singular “correcta”; en cambio, implican decisiones “buenas” y decisiones “malas” (o quizás neutrales).
En lugar de los pares independientes de datos de entrada-resultados utilizados en el aprendizaje supervisado, el aprendizaje por refuerzo (RL) opera en tuplas de datos interdependientes de estado-acción-recompensa. Un marco matemático para el aprendizaje por refuerzo se basa principalmente en estos componentes:
El objetivo de un algoritmo de RL es optimizar una política para obtener una recompensa máxima. En el aprendizaje profundo por refuerzo, la política se representa como una neural network cuyos parámetros se actualizan continuamente para maximizar la función de recompensa (en lugar de minimizar una función de pérdida).
El ciclo de vida del desarrollo del modelo comprende varios procesos, algunos de los cuales se repiten cíclicamente de manera iterativa hasta que se logran resultados satisfactorios.
Aunque el aprendizaje por refuerzo, el aprendizaje supervisado y el aprendizaje no supervisado tienen elementos de entrenamiento que son exclusivos de su paradigma, el flujo de trabajo general necesario para entrenar un modelo consta de estos pasos:
Seleccionar el algoritmo (o la arquitectura de la neural network) adecuado no depende únicamente del problema que debe resolver ni de los tipos de datos con los que trabajará el modelo. El tipo de modelo ideal también depende de si prioriza la velocidad y la eficiencia sobre la precisión y el rendimiento (o al revés), y del presupuesto y los recursos de hardware o computación disponibles. Por ejemplo, entrenar o ajustar un LLM a menudo requiere múltiples unidades de procesamiento de gráficos (GPU).
Obtener datos de entrenamiento de alta calidad para su caso de uso no es trivial, especialmente para los modelos de aprendizaje profundo que a menudo requieren muchos miles, si no millones, de ejemplos para un entrenamiento adecuado. Aunque un pipeline de datos patentado presenta oportunidades únicas de personalización y ventajas competitivas, existen conjuntos de datos de código abierto de buena reputación disponibles para la mayoría de los dominios y tareas. En algunos campos, particularmente en el procesamiento de lenguaje natural (PLN), la generación de datos sintéticos es una opción cada vez más viable.
Para utilizarse en el entrenamiento, los datos sin procesar, especialmente cuando se recopilan de primera mano o se recogen de múltiples fuentes de datos, por lo general requieren cierto procesamiento previo, que puede incluir la limpieza de los datos, la normalización de los valores y la estandarización del formato. Existen muchos servicios para automatizar parte o la totalidad de este proceso, como Docling, una herramienta de código abierto que convierte archivos PDF y otros formatos de archivo en texto más legible por máquina, al tiempo que conserva elementos estructurales importantes.
Para el aprendizaje supervisado, los datos deben etiquetarse y, a veces, anotarse con detalles significativos. Por ejemplo, las imágenes empleadas para entrenar modelos de segmentación de imágenes deben etiquetarse hasta el nivel de pixel. Este etiquetado puede implicar una cantidad significativa de tiempo y mano de obra, que deben tenerse en cuenta para los plazos y el presupuesto.
Incluso cuando ya haya elegido un algoritmo o una arquitectura de modelo, aún tiene más elecciones que hacer. Los algoritmos de aprendizaje automático (ML) convencionales rara vez son de un solo tamaño para todos, y las redes neuronales están aún menos estandarizadas. Seleccionar los hiperparámetros correctos, los elementos modulares de un algoritmo que son externos a la optimización de parámetros, es esencial para un entrenamiento eficiente y exitoso.
Cuando el entrenamiento no se desarrolla satisfactoriamente, o cuando se trabaja con algoritmos de aprendizaje no supervisado o algoritmos de aprendizaje supervisado no paramétrico, como decision trees, el rendimiento del modelo se puede ajustar y mejorar mediante el ajuste de hiperparámetros. Es posible que sea necesario un poco de prueba y error para llegar a la tasa de aprendizaje óptima, el tamaño del lote, la función de pérdida (y los términos de regularización) o el algoritmo de optimización.
Uno de esos parámetros es la inicialización de los parámetros que se pueden aprender. Por lo general, son aleatorios, pero incluso la aleatorización de parámetros tiene múltiples estrategias. Los parámetros iniciales óptimos también se pueden "aprender" a través de una técnica llamada metaaprendizaje .
Una vez que se establecieron los parámetros iniciales y los hiperparámetros, el modelo procesa un lote de ejemplos de datos de entrada extraídos del conjunto de datos de entrenamiento. Debido a que los parámetros iniciales son aleatorios, el modelo generalmente aún no produce resultados "buenos". El objetivo de la primera ejecución de entrenamiento es simplemente establecer una línea basal para luego optimizar. El tamaño del lote (la cantidad de ejemplos que se procesan en cada “lote” antes de calcular la pérdida y optimizar los parámetros) es en sí mismo un hiperparámetro importante.
Existen muchos marcos de código abierto para configurar y ejecutar modelos de machine learning para entrenamiento, como PyTorch, Keras o TensorFlow. La mayoría opera en Python o JavaScript y, al ser proyectos impulsados por la comunidad, ofrecen amplias bibliotecas de contenido tutorial para principiantes.
A medida que su modelo funciona a través de ejemplos de entrenamiento, la función de pérdida elegida rastrea la discrepancia entre los resultados del modelo y las actualizaciones “correctas” para cada entrada. En el aprendizaje profundo, en el que los modelos son neural networks que comprenden varias ecuaciones anidadas entre sí, la retropropagación se utiliza para calcular cómo cada nodo de la red neuronal contribuye a la pérdida general.
En el aprendizaje supervisado, el objetivo formal del entrenamiento por lo general es minimizar esa función de pérdida. Algunas arquitecturas de modelos, como los autocodificadores variacionales (VAE), reformulan el problema en términos de maximizar algún proxy para la función de pérdida. Los algoritmos de RL suelen buscar maximizar una función de recompensa y, a veces, minimizar simultáneamente un término de regularización que penaliza los comportamientos no deseados.
La optimización de un algoritmo de machine learning (ML) generalmente se realiza mediante un algoritmo separado. En matemáticas, un algoritmo de optimización está diseñado para minimizar o maximizar alguna otra función, en este caso, una función de pérdida o una función de recompensa, determinando valores óptimos para las variables en esa función. En el machine learning (ML), esas variables son los pesos y sesgos en un algoritmo o entre diferentes nodos de una red neuronal.
El algoritmo de optimización ideal depende del tipo de modelo que se esté entrenando. Muchos algoritmos de machine learning (ML), y especialmente los modelos basados en neural networks, emplean variaciones del descenso de gradiente. Ciertos algoritmos con funciones cuadráticas, como las máquinas de vectores de soporte (SVM), podrían funcionar mejor con programación cuadrática. Los algoritmos de regresión lineal normalmente se optimizan mediante algoritmos de mínimos cuadrados. El aprendizaje de refuerzo tiene sus propios algoritmos de optimización, como la optimización de políticas proximales (PPO), la optimización de políticas directas (DPO) o la crítica de actores con beneficio (A2C).
Esta secuencia de pasos de entrenamiento (ajuste de hiperparámetros, ejecución del modelo en un lote de datos de entrenamiento, cálculo de pérdidas y optimización de parámetros) se repite en múltiples iteraciones hasta que la pérdida se haya minimizado lo suficiente.
Un buen rendimiento de los datos de entrenamiento no es, en sí mismo, una evidencia concluyente de que el modelo haya sido entrenado y preparado con éxito para su despliegue en el mundo real. Se debe tener cuidado para evitar el sobreajuste, en el que un modelo ha memorizado esencialmente los datos de entrenamiento, pero no puede generalizar bien a nuevos datos (lo que frustra el propósito del entrenamiento). El sobreajuste puede entenderse como el equivalente de machine learning de "enseñar para la prueba".
Para evitar el sobreajuste, la práctica estándar es reservar una parte del conjunto de datos de entrenamiento en un proceso llamado validación cruzada. Este proceso permite que el modelo se pruebe con datos nuevos que no ha visto, lo que garantiza que se haya entrenado adecuadamente.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigida por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.