Tiempo de lectura
Cuando los científicos de datos entrenan modelos de machine learning (ML), corren el riesgo de utilizar un algoritmo que sea demasiado simple para capturar los patrones subyacentes de los datos, lo que lleva a un ajuste insuficiente, o uno que es demasiado complejo y lleva a un sobreajuste. Gestionar el sobreajuste y el subajuste es un desafío fundamental en los flujos de trabajo de la ciencia de datos y en el desarrollo de sistemas de inteligencia artificial (IA) fiables.
El sesgo y la varianza explican el equilibrio que los ingenieros deben alcanzar para ayudar a garantizar un buen ajuste en sus modelos de machine learning. Como tal, la compensación sesgo-varianza es fundamental para abordar el infraajuste y el sobreajuste.
Un modelo sesgado hace suposiciones sólidas sobre los datos de entrenamiento para simplificar el proceso de aprendizaje, ignorando sutilezas o complejidades que no puede tener en cuenta. La varianza se refiere a la sensibilidad del modelo a las fluctuaciones de aprendizaje en los datos de entrenamiento.
Ejemplos de modelos de alto sesgo incluyen algoritmos de regresión lineal o árboles de decisión superficiales, que asumen relaciones lineales o binarias simples incluso cuando los patrones de datos son más complejos.
El uso de un modelo de regresión lineal para datos con una relación cuadrática dará lugar a un subajuste porque el modelo lineal no puede captar la curvatura inherente. En consecuencia, el modelo no funcionará bien en el conjunto de datos de entrenamiento ni en los datos de prueba no observados, ya que no puede generalizarse bien a los nuevos datos.
La generalización es la capacidad del modelo para entender y aplicar los patrones aprendidos a datos invisibles. Los modelos con una varianza baja también tienden a no ajustarse, ya que son demasiado simples para capturar patrones complejos. Sin embargo, los modelos de sesgo bajo podrían sobreajustarse si son demasiado flexibles.
Una alta varianza indica que el modelo podría captar ruido, idiosincrasias y detalles aleatorios dentro de los datos de entrenamiento. Los modelos de alta varianza son demasiado flexibles, lo que da como resultado un bajo error de entrenamiento, pero cuando se prueban con datos nuevos, los patrones aprendidos no se generalizan, lo que genera un alto error de prueba.
Imagine memorizar las respuestas de un examen en lugar de comprender los conceptos necesarios para obtener las respuestas usted mismo. Si la prueba difiere de lo que se estudió, tendrá dificultades para responder a las preguntas. Lograr el equilibrio entre la varianza y el sesgo es clave para lograr un rendimiento óptimo en los modelos de machine learning.
Un modelo de sobreajuste puede generar una alta precisión del modelo en datos de entrenamiento, pero una baja precisión en datos nuevos debido a la memorización en lugar de la generalización. El sobreajuste ocurre cuando los ingenieros utilizan un modelo de machine learning con demasiados parámetros o capas, como una red neuronal de deep learning, lo que lo hace altamente adaptable a los datos de entrenamiento.
Cuando se entrena con un conjunto de datos pequeño o ruidoso, el modelo corre el riesgo de memorizar puntos de datos específicos y ruido en lugar de aprender los patrones generales. Si los datos contienen errores o incoherencias, el modelo podría aprenderlos incorrectamente como patrones significativos.
Los ingenieros buscan una brecha de rendimiento entre el entrenamiento y las pruebas, pero también pueden detectar un sobreajuste en las curvas de aprendizaje, donde la pérdida de entrenamiento disminuye hacia cero mientras que la pérdida de validación aumenta, lo que indica una generalización deficiente.
Otro signo de un modelo sobreajustado son sus límites de decisión, las reglas aprendidas del modelo para clasificar los puntos de datos. El límite de decisión se vuelve demasiado complejo y errático en los modelos de sobreajuste, puesto que se adapta al ruido en el conjunto de entrenamiento en lugar de capturar las verdaderas estructuras subyacentes, lo que indica aún más el sobreajuste.
Además, los conjuntos de datos de alta dimensión pueden provocar un sobreajuste debido a la "maldición de la dimensionalidad". A medida que aumenta el número de características, los puntos de datos se vuelven escasos, lo que dificulta que los modelos encuentren patrones significativos, lo que aumenta la varianza y el riesgo de sobreajuste.
Un modelo de subajuste funciona mal con los datos de entrenamiento y los datos de las pruebas porque no captura los patrones dominantes del conjunto de datos. Los ingenieros suelen identificar la falta de adaptación a través de un rendimiento deficiente y constante en ambos conjuntos de datos.
Los modelos de subajuste también tienden a mostrar grandes errores en las curvas de aprendizaje, arrojan métricas de evaluación subóptimas y muestran patrones residuales sistemáticos, todo lo cual indica una incapacidad para aprender las relaciones subyacentes en los datos de manera efectiva.
El desajuste en el machine learning suele producirse debido a modelos simplistas, una ingeniería de características deficiente o una regularización excesiva que restringe excesivamente la flexibilidad del modelo. Del mismo modo, una mala selección de características, como omitir términos de interacción o características polinómicas, puede impedir que el modelo comprenda las relaciones ocultas en los datos. Un preprocesamiento inadecuado, un tiempo de entrenamiento insuficiente o la falta de datos suficientes para entrenar el modelo también pueden contribuir al desajuste.
Modelo de diagnóstico médico
Un modelo de machine learning está entrenado para clasificar las imágenes médicas como "sanas" o "enfermas" en un conjunto de datos pequeño. El modelo memoriza las imágenes de entrenamiento y logra una precisión casi perfecta, pero su desempeño es deficiente con imágenes nuevas porque ha aprendido ruido o artefactos específicos en los datos de entrenamiento en lugar de características generales de la enfermedad.
Predicción del precio de las acciones
Un modelo financiero utiliza una red neuronal compleja con muchos parámetros para predecir los precios de las acciones. En lugar de aprender tendencias o patrones, capta las fluctuaciones aleatorias de los datos históricos, lo que da lugar a predicciones de entrenamiento muy precisas, pero un rendimiento pobre cuando se prueban con precios de acciones futuros.
Predicción de abandono de clientes
Un modelo de fidelización de clientes incluye demasiadas características específicas, como datos demográficos muy detallados, lo que provoca que se sobreajuste a los datos de entrenamiento. Tiene dificultades para generalizar e identificar patrones en diferentes grupos demográficos cuando se aplica a una base de clientes más amplia.
Predicción del precio de la vivienda
Un modelo de regresión lineal predice los precios de la vivienda basándose únicamente en la superficie. El modelo no tiene en cuenta otras características importantes como la ubicación, el número de dormitorios o la edad de la casa, lo que lleva a un rendimiento deficiente en los datos de entrenamiento y prueba.
Previsión meteorológica
Un modelo utiliza un pequeño conjunto de características sencillas, como la temperatura media y la humedad, para predecir las precipitaciones. No es capaz de captar relaciones más complejas, como los patrones estacionales o las interacciones entre múltiples factores atmosféricos, lo que se traduce en una precisión sistemáticamente deficiente.
Reconocimiento de imágenes
Se utiliza un árbol de decisión superficial para clasificar las imágenes de gatos y perros. Debido a su simplicidad, no logra diferenciar entre las dos especies, por lo que tiene un rendimiento deficiente en las imágenes de entrenamiento y en las nuevas e invisibles.
Los algoritmos de machine learning entrenan modelos para reconocer patrones en los datos, lo que permite a los ingenieros utilizarlos para prever resultados futuros a partir de entradas no vistas. El ajuste de los hiperparámetros desempeña un papel importante a la hora de equilibrar el sobreajuste y el subajuste, garantizando que un modelo predictivo generalice eficazmente a los datos no vistos.
Mediante el uso de hiperparámetros, los ingenieros pueden afinar la tasa de aprendizaje, la fuerza de regularización, el número de capas en una red neuronal o la profundidad máxima de un árbol de decisión. Un ajuste adecuado puede evitar que un modelo sea demasiado rígido o demasiado adaptable.
Regularización
La regularización de los modelos de regresión o abandono en redes neuronales es una técnica utilizada en el machine learning para disuadir al modelo de depender demasiado de una sola característica o de ajustar el ruido en los datos de entrenamiento.
Los tipos comunes de regularización incluyen L1, que fomenta la dispersión al reducir algunos coeficientes a cero y L2, que reduce el tamaño de todos los coeficientes para que el modelo sea más simple y generalizable. La regularización ayuda al modelo a centrarse en los patrones subyacentes en lugar de memorizar los datos.
Aumento de datos
El aumento de datos es otra estrategia eficaz, sobre todo en tareas como la visión artificial, en la que ampliar artificialmente los datos de entrenamiento volteando, rotando o recortando imágenes ayuda a que el modelo generalice mejor. Simplificar el modelo reduciendo el número de parámetros o capas de una red neuronal también limita su capacidad para memorizar detalles de los datos de entrenamiento.
Validación cruzada de K iteraciones
Los ingenieros también pueden utilizar técnicas como la validación cruzada de k iteraciones para evaluar la generalización del modelo. La validación cruzada de K iteraciones divide los datos en subconjuntos, entrena algunos y prueba el resto.
Del mismo modo, los ingenieros pueden utilizar un conjunto de retención, información del conjunto de entrenamiento que se reservará como datos no vistos para proporcionar otro medio de evaluar el rendimiento de la generalización. A continuación, los resultados se promedian para proporcionar una puntuación de rendimiento general.
Marcos de evaluación
Además de estas técnicas, los marcos sólidos de evaluación de modelos son esenciales para garantizar que un modelo de machine learning se generalice bien. Una técnica de evaluación avanzada es la validación cruzada anidada, que es particularmente útil para el ajuste de hiperparámetros. En la validación cruzada anidada, un bucle externo divide los datos en subconjuntos de entrenamiento y prueba para evaluar la capacidad de generalización del modelo.
Al mismo tiempo, un bucle interno realiza un ajuste de hiperparámetros en los datos de entrenamiento para ayudar a garantizar que el proceso de ajuste no sobreajuste el conjunto de validación. Este enfoque separa la optimización de hiperparámetros de la evaluación del modelo, lo que proporciona una estimación más precisa del rendimiento del modelo en datos no vistos.
Otro marco eficaz combina las divisiones entrenamiento-prueba con la detención temprana para controlar la pérdida de validación durante el entrenamiento. Al evaluar el rendimiento del modelo en un conjunto de validación específico, los ingenieros pueden detener el entrenamiento cuando el rendimiento de validación se estanca o degrada, evitando así el sobreajuste.
Los marcos de evaluación deben incluir un muestreo estratificado para los problemas de clasificación con conjuntos de datos desequilibrados a fin de garantizar que cada división de datos mantenga la misma distribución de clases que el conjunto de datos original. Esto evita el sobreajuste a las clases mayoritarias y, al mismo tiempo, proporciona una evaluación justa del rendimiento de las clases minoritarias.
Métodos de conjunto
Los métodos de conjunto, como el bagging y el boosting, combinan varios modelos para mitigar las debilidades individuales y mejorar la generalización general. Por ejemplo, los bosques aleatorios, una técnica de agrupación popular, reducen el sobreajuste agregando predicciones de múltiples árboles de decisión, equilibrando eficazmente el sesgo y la varianza.
Modelos más complejos
Para abordar el desajuste, los ingenieros suelen aumentar la complejidad del modelo para capturar mejor los patrones subyacentes en los datos. Por ejemplo, cambiar de una regresión lineal simple a una regresión polinomial puede ayudar en los casos en que las características de la relación y la variable objetivo no sean lineales. Aunque los modelos más complejos pueden abordar el desajuste, corren el riesgo de sobreajustarse si no se regularizan adecuadamente.
Regularización
La reducción de las penalizaciones por regularización también puede permitir que el modelo tenga más flexibilidad para ajustarse a los datos sin estar demasiado limitado. Por ejemplo, los parámetros L1 y L2 son tipos de regularización que se utilizan para comprobar la complejidad de un modelo. L1 (lasso) añade una penalización para animar al modelo a seleccionar solo las características más importantes. L2 (ridge) ayuda a llevar el modelo a una importancia distribuida más uniformemente entre las características.
Diseño de funciones
La ingeniería y la selección de características intervienen en la creación o transformación de características, como la adición de términos de interacción, características polinómicas o la codificación de variables categóricas, para proporcionar al modelo información más relevante.
Tiempo de entrenamiento
Permitir que el modelo disponga de más tiempo de entrenamiento al aumentar el número de épocas ayuda a garantizar que tenga una oportunidad adecuada de aprender de los datos. Una época representa una pasada completa por el conjunto de datos de entrenamiento, y varias épocas permiten al modelo aprender patrones de forma más eficaz.
A menudo se utilizan varias épocas para permitir que el modelo aprenda patrones en los datos de manera más eficaz. Además, aumentar el tamaño del conjunto de datos de entrenamiento ayuda al modelo a identificar patrones más diversos, lo que reduce el riesgo de simplificación excesiva y mejora la generalización.
Calidad de los datos
Desde un punto de vista holístico, los ingenieros deben evaluar a fondo los datos de formación para comprobar su exactitud, integridad y coherencia, cotejándolos con fuentes fiables para resolver cualquier discrepancia. Técnicas como la normalización (escalar los valores entre 0 y 1) o la estandarización (escalar a una media de 0 y una desviación estándar de 1) ayudan a garantizar que el modelo no favorezca ciertas variables sobre otras debido a las diferentes escalas.
Con el tiempo, las distribuciones de los datos de entrada pueden cambiar, un fenómeno conocido como deriva de datos, lo que puede hacer que los modelos se ajusten por debajo o por encima de los nuevos datos. Para contrarrestar esto, son esenciales la monitorización regular y el reentrenamiento periódico con conjuntos de datos actualizados. La eliminación de valores atípicos también puede ayudar a evitar resultados sesgados y mejorar la solidez del modelo.
Herramientas como AutoML pueden agilizar aún más los procesos al automatizar el ajuste de hiperparámetros, la selección de características y la creación de marcos de evaluación de modelos, lo que permite a los ingenieros centrarse en conocimientos y toma de decisiones de mayor nivel.
Un buen ajuste del modelo radica en el equilibrio óptimo entre el subajuste y el sobreajuste. Describe un modelo que captura con precisión los patrones subyacentes en los datos sin ser demasiado sensible al ruido o a las fluctuaciones aleatorias.
El conocimiento del dominio desempeña un papel importante a la hora de abordar el subajuste y el sobreajuste, puesto que ayuda a los ingenieros a adaptar el modelo a las características específicas del problema en cuestión. Los conjuntos de datos del mundo real suelen contener ruido, desequilibrios o incoherencias.
Una logística eficiente, como la división y el preprocesamiento adecuados de los datos, ayuda a mitigar los problemas de ajuste. Comprender el contexto de los datos permite a los ingenieros tomar decisiones informadas sobre el preprocesamiento, la selección de funciones y el diseño para obtener un modelo bien entrenado. Por ejemplo:
Lograr el equilibrio entre el sobreajuste y el subajuste permite a los ingenieros identificar el rango óptimo en el que un modelo de machine learning pasa de una simplicidad rígida a una generalización significativa sin volverse demasiado complejo. Un modelo bien equilibrado puede predecir la pérdida de clientes en diversos grupos demográficos, clasificar las imágenes médicas de manera efectiva a pesar de las variaciones en la calidad de los datos y realizar la previsión de los precios de las acciones al capturar las tendencias del mercado sin sobreajustarse a las fluctuaciones aleatorias.
La gestión eficaz de la compensación del sesgo o la varianza produce modelos que aprenden con precisión patrones en los datos al tiempo que mantienen la flexibilidad necesaria para adaptarse a lo desconocido. Al lograr este equilibrio, los científicos de datos pueden crear soluciones técnicamente sólidas e impactantes en aplicaciones del mundo real.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigido por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a conseguir el conocimiento necesario para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.
Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.