¿Qué es el rendimiento del modelo?

Coches de carreras de F1 alineados antes de una carrera

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el rendimiento del modelo?

El rendimiento de un modelo de machine learning (ML) indica el grado de eficacia con el que lleva a cabo la tarea para la que fue diseñado, basándose en diversas métricas. Medir el rendimiento del modelo es esencial para optimizarlo antes de ponerlo en producción y para mejorarlo tras su implementación. Sin una optimización adecuada, los modelos pueden generar predicciones inexactas o poco fiables, y presentar ineficiencias, lo que se traduce en un rendimiento deficiente.

La evaluación del rendimiento del modelo ocurre durante las etapas de evaluación y monitorización del modelo de un pipeline de machine learning. Tras la intervención de los profesionales de la inteligencia artificial (IA) en las fases iniciales de los proyectos de ML, se evalúa el rendimiento del modelo en múltiples conjuntos de datos, tareas y métricas para medir su eficacia. Una vez implementado el modelo, los equipos de operaciones de machine learning (MLOps) monitorizan su rendimiento para mejorarlo de forma continua.

Factores que afectan el rendimiento del modelo

El rendimiento de un modelo de IA suele medirse con un conjunto de pruebas, comparando los outputs del modelo con las predicciones del conjunto de referencia. Los conocimientos obtenidos al evaluar el rendimiento ayuda a determinar si un modelo está listo para implementarse en el mundo real o si necesita ajustes o formación adicionales.

A continuación, se indican algunos factores que pueden afectar al rendimiento de un modelo de machine learning:

  • Calidad de los datos
  • Fuga de datos
  • Selección de características
  • Ajuste del modelo
  • Desviación del modelo
  • Sesgo

Calidad de los datos

La calidad del modelo depende de la calidad de los datos utilizados para entrenarlo. El rendimiento del modelo se ve afectado cuando los datos de entrenamiento contienen imprecisiones o inconsistencias, como duplicados, valores faltantes, anotaciones o etiquetas de datos incorrectas. La falta de equilibrio, como tener demasiados valores para un escenario en comparación con otro, o un conjunto de datos de entrenamiento que no sea lo suficientemente amplio o diverso como para capturar correctamente las correlaciones, también puede dar lugar a resultados sesgados.

Fuga de datos

La fuga de datos en el machine learning se produce cuando un modelo utiliza, durante el entrenamiento, información que no estaría disponible en el momento de la predicción. Esto puede deberse a errores en el procesamiento previo de los datos o a la contaminación debida a una división inadecuada de los datos en conjuntos de entrenamiento, validación y prueba. La fuga de datos puede provocar que un modelo predictivo tenga dificultades para generalizar datos no vistos, que arroje resultados inexactos o poco fiables o que infle o deflate las métricas de rendimiento.

Seleccionar características

La selección de características implica elegir las características más relevantes de un conjunto de datos para usarlas en el entrenamiento del modelo. Las características de los datos influyen en la forma en que los algoritmos de machine learning configuran sus ponderaciones durante el entrenamiento, lo que a su vez impulsa el rendimiento. Además, reducir el espacio de características a un subconjunto seleccionado puede ayudar a mejorar el rendimiento y a reducir las exigencias computacionales. No obstante, si se eligen características irrelevantes o insignificantes, el rendimiento del modelo puede verse afectado.

Ajuste del modelo

El sobreajuste se produce cuando un modelo de ML es demasiado complejo y se ajusta en exceso a los datos de entrenamiento, por lo que no se generaliza bien a datos nuevos. Por el contrario, el subajuste ocurre cuando un modelo es tan simple que no logra capturar los patrones subyacentes en los datos de entrenamiento y de prueba.

Deriva del modelo

La deriva del modelo se refiere al deterioro del rendimiento de este debido a cambios en los datos o en las relaciones entre las variables de entrada y salida. Este deterioro puede afectar negativamente al rendimiento del modelo y dar lugar a una toma de decisiones errónea y a predicciones incorrectas.

Sesgo

El sesgo en la IA se puede introducir en cualquier fase del flujo de trabajo de machine learning, pero es especialmente frecuente en las fases de proceso de datos y desarrollo de modelos. El sesgo de datos se produce cuando la naturaleza poco representativa de los conjuntos de datos de entrenamiento y ajuste afecta negativamente al comportamiento y al rendimiento del modelo. Por otra parte, el sesgo algorítmico no está causado por el algoritmo en sí, sino por la forma en que los equipos de ciencia de datos recopilan y codifican los datos de entrenamiento, así como por la manera en que los programadores de IA diseñan y desarrollan los algoritmos de machine learning. El sesgo de la IA puede dar lugar a outputs inexactos y potencialmente perjudiciales.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Métricas de rendimiento del modelo

Es importante alinear las métricas con los objetivos empresariales que debe cumplir un modelo. Aunque cada tipo de modelo de machine learning tiene su propio conjunto de métricas de evaluación, muchos modelos comparten algunas medidas comunes:

  • exactitud
  • Recuperación
  • Precisión
  • Puntuación de la F1

exactitud

La precisión se calcula dividiendo el número de predicciones correctas entre el número total de predicciones. Este porcentaje es una métrica muy habitual.

La precisión y el rendimiento de los modelos suelen ir de la mano, pero la precisión es solo una parte del rendimiento. Y, aunque están interrelacionadas, las predicciones precisas por sí solas no ofrecen una visión global del rendimiento de un modelo.

Recuperación

La tasa de recuperación cuantifica el número de verdaderos positivos, es decir, las predicciones correctas. También se conoce como tasa de sensibilidad o tasa de verdaderos positivos (TPR).

Esta métrica es crítica en el ámbito sanitario, por ejemplo, para diagnosticar enfermedades o detectar cáncer. Un modelo de ML con un alto nivel de precisión puede identificar correctamente los casos positivos y minimizar los falsos negativos, es decir, casos positivos reales que se predicen erróneamente como negativos. 

Recall=TPTP+FN

Precisión

La precisión es la proporción de predicciones positivas que son realmente positivas. Un modelo de machine learning con alta precisión puede minimizar los falsos positivos, es decir, casos negativos reales que se predicen incorrectamente como positivos.

Esta métrica es crucial en el ámbito financiero, por ejemplo, a la hora de detectar fraudes. Las transacciones marcadas como fraudulentas deben serlo realmente (verdaderos positivos), ya que marcar transacciones legítimas como fraudulentas (falsos positivos) puede tener consecuencias negativas.

 Precision=TPTP+FP 

Puntuación de la F1

La puntuación F1 es la media armónica de la recuperación y la precisión, y combina ambas métricas en una sola. Tiene en cuenta que las dos medidas tienen el mismo peso para equilibrar los falsos positivos y los falsos negativos. Es especialmente útil con conjuntos de datos desequilibrados, por ejemplo, en la detección de enfermedades raras, donde los casos negativos superan con creces a los positivos.

 F1=2*Precision*RecallPrecision+Recall 

Muchos marcos de IA, como PyTorch basado en Python, scikit-learn y TensorFlow, ofrecen funciones integradas para calcular la precisión, la recuperación, la exactitud y la puntuación F1. También proporcionan visualizaciones de predicciones del modelo como una matriz de confusión: una tabla que representa valores predichos y reales, con cuadros que representan el número de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.

Diagrama que representa la matriz de confusión

Métricas de rendimiento del modelo de clasificación

Los modelos de clasificación agrupan los puntos de datos en clases predefinidas. A continuación, se muestran algunas métricas específicas de los modelos de clasificación:

  • Curva ROC: una curva de característica operativa del receptor (ROC) visualiza la proporción de verdaderos positivos con respecto a los verdaderos negativos. El gráfico traza la tasa de verdaderos positivos frente a la verdadera tasa negativa para cada umbral utilizado en la clasificación del modelo. La estadística del área bajo la curva (AUC) se deriva de la curva ROC y mide la probabilidad de que un resultado positivo seleccionado al azar tenga una puntuación de confianza más alta que un resultado negativo aleatorio. El AUC-ROC es una métrica útil para tareas de clasificación binaria (clasificación de datos en dos categorías excluyentes).
  • Pérdida logarítmica: la pérdida logarítmica evalúa la confianza en las clasificaciones de un modelo, penalizando con mayor severidad las clasificaciones incorrectas seguras que las menos seguras. Esto resulta especialmente útil en el caso de los outputs probabilísticos, ya que los modelos aprenden a mostrar mayor seguridad en las clasificaciones correctas e incertidumbre en las incorrectas. Los valores más bajos de pérdida logarítmica indican un mejor rendimiento.

Medidas de rendimiento del modelo de regresión

Los modelos de regresión se utilizan para hacer predicciones de valores continuos, como estimaciones de ventas minoristas o previsiones del precio de las acciones. Dado que estos algoritmos trabajan con conceptos cuantificables, sus métricas miden los errores de predicción:

  • El error absoluto medio (MAE) se calcula mediante la suma del valor absoluto de todos los errores y la división del resultado por el tamaño de la muestra. Mide la diferencia absoluta media entre el valor previsto y el real.

  • El error cuadrático medio (MSE) se calcula como la media de las diferencias al cuadrado entre el valor predicho y el valor real en todas las muestras de entrenamiento. Elevar al cuadrado el error penaliza los errores grandes e incentiva al modelo para que los reduzca.

  • El error cuadrático medio (RMSE) es la raíz cuadrada del MSE. Elevar los errores al cuadrado antes de promediarlos penaliza aún más los errores más grandes, lo que vuelve a incentivar a los modelos para que los minimicen.

Métricas de rendimiento del modelo de procesamiento del lenguaje natural

Estas métricas evalúan el rendimiento de los modelos de procesamiento del lenguaje natural (PLN). También se utilizan como puntos de referencia para modelos de lenguaje de gran tamaño (LLM).

A continuación, se presentan algunas medidas cuantitativas del modelo de PLN:

  • La perplejidad mide lo bueno que es un modelo en la predicción. Cuanto menor sea la puntuación de perplejidad de un LLM, mejor comprenderá una tarea.

  • El estudio de evaluación bilingüe (BLEU) evalúa la traducción automática calculando los n-gramas coincidentes (una secuencia de n símbolos de texto adyacentes) entre la traducción prevista de un LLM y una traducción producida por humanos.

  • El estudio orientado al recuerdo para la evaluación de resumen (ROUGE) evalúa el resumen de texto y cuenta con varios tipos. ROUGE-N, por ejemplo, realiza cálculos similares a BLEU para resúmenes, mientras que ROUGE-L calcula la subsecuencia común más larga entre el resumen previsto y el elaborado por humanos.

Las métricas cualitativas incluyen medidas como la coherencia, la relevancia y el significado semántico, y suelen requerir que evaluadores humanos examinen y puntúen los modelos. Un equilibrio entre las métricas cuantitativas y cualitativas puede dar lugar a una evaluación más matizada.

Métricas de rendimiento del modelo de visión artificial

Los modelos de visión artificial, en particular los de segmentación de instancias y detección de objetos, se evalúan utilizando estas dos medidas de rendimiento comunes:

  • La intersección sobre la unión (IoU) calcula la relación entre el área de intersección y el área de unión. La intersección abarca las secciones superpuestas entre el cuadro delimitador que marca un objeto detectado según lo predicho por un modelo y el objeto real. La unión denota el área total del cuadro delimitador y del objeto real. Los modelos de visión artificial utilizan la IoU para evaluar la precisión de la localización de los objetos detectados.

  • La precisión media (mAP) calcula la media de todas las puntuaciones de precisión media en todas las clases de objetos. Los modelos de visión artificial utilizan el IoU para evaluar la precisión de la predicción y la detección.

Estrategias para mejorar el rendimiento del modelo

La mayoría de las técnicas para optimizar el rendimiento del machine learning se implementan durante el desarrollo, la formación y la evaluación del modelo. Sin embargo, una vez que el modelo se implementa en el mundo real, es necesario realizar un seguimiento constante de su rendimiento. La monitorización del modelo permite tomar decisiones fundamentadas sobre cómo mejorar el rendimiento con el tiempo. 

El perfeccionamiento del rendimiento del modelo de ML puede implicar una o varias de estas técnicas:

  • Preprocesamiento de datos
  • Evitar la fuga de datos
  • Elegir las características adecuadas
  • Ajuste de hiperparámetros
  • Aprendizaje conjunto
  • Aprendizaje por transferencia
  • Lograr un ajuste óptimo del modelo
  • Protegerse contra la deriva del modelo
  • Abordar el sesgo

Muchos marcos de IA tienen características preintegradas que admiten la mayoría de estas técnicas.

Preprocesamiento de datos

Establecer y mantener procedimientos rigurosos de preprocesamiento y preparación de los datos puede ayudar a evitar problemas de calidad. Aunque la limpieza, la eliminación del ruido y la normalización de los datos son pilares fundamentales del preprocesamiento, los científicos de datos también pueden utilizar herramientas de automatización de datos e incluso herramientas con IA para ahorrar tiempo y esfuerzo, y evitar errores humanos. En el caso de conjuntos de datos insuficientes o desequilibrados, los datos sintéticos pueden llenar los vacíos.

Prevención de la fuga de datos

El manejo cuidadoso de los datos es fundamental para evitar fugas de información. Dichos datos deben dividirse adecuadamente en conjuntos de entrenamiento, validación y prueba, y el preprocesamiento debe realizarse por separado para cada conjunto.

La validación cruzada también puede resultar útil. Consiste en dividir los datos en varios subconjuntos y utilizar diferentes conjuntos para el entrenamiento y la validación en un número definido de iteraciones.

Elegir las características adecuadas

La selección de características puede resultar complicada y requiere conocimientos especializados para identificar las más esenciales e influyentes. Es importante comprender la importancia de cada una de ellas y examinar su correlación con la variable objetivo (la variable dependiente que el modelo debe predecir).

Los métodos de selección de características para el aprendizaje supervisado se clasifican en métodos envolventes y métodos integrados. Los métodos envolventes entrenan un algoritmo de machine learning con diferentes subconjuntos de características, añadiéndolas o eliminándolas, y comprueban los resultados en cada iteración para determinar el conjunto de características que proporciona un rendimiento óptimo del modelo. Por su parte, los métodos integrados incorporan la selección de características en el entrenamiento del modelo, de modo que identifican las características con bajo rendimiento y las eliminan de futuras iteraciones.

En el aprendizaje no supervisado, los modelos determinan por sí mismos las características, los patrones y las relaciones de los datos. Entre los métodos de selección de características para el aprendizaje no supervisado se encuentran el análisis de componentes principales (PCA), el análisis de componentes independientes (ICA) y los autocodificadores.

Ajuste de hiperparámetros

El ajuste de hiperparámetros, también conocido como optimización de hiperparámetros o ajuste de modelos, identifica, selecciona y optimiza los hiperparámetros de un modelo de deep learning para obtener el mejor rendimiento de entrenamiento. Los hiperparámetros controlan el proceso de aprendizaje de un modelo y encontrar la combinación y configuración adecuadas puede mejorar su rendimiento en el mundo real.

Entre los métodos comunes de ajuste de hiperparámetros se encuentran la búsqueda por cuadrícula, la búsqueda aleatoria, la optimización bayesiana y la hiperbanda. Los científicos de datos también pueden implementar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos que se ajusten a su caso de uso.

Aprendizaje conjunto

El aprendizaje conjunto combina varios modelos para mejorar el rendimiento predictivo, partiendo de la premisa de que un conjunto de modelos puede producir mejores predicciones que un solo modelo.

A continuación, se presentan algunas técnicas populares de aprendizaje conjunto:

  • El bagging, también llamado agregación bootstrap, entrena modelos en paralelo e independientemente entre sí. A continuación, calcula una estimación más precisa tomando la media (en tareas de regresión) o la mayoría (en problemas de clasificación) de las predicciones.

Diagrama que representa el bagging en el contexto del aprendizaje conjunto
  • El boosting entrena los modelos de forma secuencial, y corrige los errores pasados en cada iteración. Otorga mayor importancia a las instancias erróneas o mal clasificadas en los modelos posteriores, lo que le permite centrarse en los puntos de datos más difíciles y mejorar el rendimiento a lo largo del proceso.

Diagrama que representa el boosting en el contexto del aprendizaje conjunto.
  • El stacking apila modelos de entrenamiento a partir del mismo conjunto de datos, pero aplica un algoritmo de entrenamiento diferente a cada uno. A continuación, se utilizan las predicciones compiladas o apiladas para entrenar un modelo final.

Diagrama que representa el stacking en el contexto del aprendizaje conjunto.

Aprendizaje por transferencia

El aprendizaje por transferencia consiste en aprovechar el conocimiento adquirido por un modelo preentrenado en una tarea o conjunto de datos iniciales y aplicarlo a una tarea o conjunto de datos nuevos, pero relacionados. Reutilizar un modelo preentrenado para una tarea diferente aumenta sus capacidades de generalización, lo que ayuda a optimizar el rendimiento.

Lograr un ajuste óptimo del modelo

Gestionar el sobreajuste y el subajuste es un reto fundamental en el machine learning. Un modelo óptimamente ajustado reconoce los patrones de los datos con precisión sin verse demasiado afectado por las fluctuaciones aleatorias o el ruido.

Entre las técnicas para evitar el sobreajuste y el subajuste se encuentran: encontrar la duración adecuada del entrenamiento para que los modelos dispongan de tiempo suficiente para aprender, aumentar los datos para ampliar el conjunto de entrenamiento y aplicar la regularización para reducir la varianza en un modelo mediante la penalización de los parámetros de entrada con coeficientes más grandes.

Protección contra la deriva del modelo

La detección de la deriva, aspecto fundamental de la monitorización y la observabilidad de los modelos, puede ayudar a protegerse de ellas. Por ejemplo, los detectores de la deriva de la IA reconocen automáticamente cuándo la precisión de un modelo disminuye por debajo de un umbral predefinido, mientras que las herramientas de monitorización observan continuamente los escenarios de deriva.

Una vez detectada la deriva, los modelos de ML (aprendizaje automático) pueden actualizarse en tiempo real o volver a entrenarse utilizando un nuevo conjunto de datos que contenga muestras más recientes y relevantes.

dirección el sesgo

La mitigación del sesgo de la IA comienza con el gobierno de la IA, que incluye barreras de protección, procesos y normas que ayudan a garantizar que los sistemas y herramientas de IA sean éticos y seguros. A continuación, se presentan algunas prácticas de IA responsable que pueden ayudar a evitar el sesgo:

  • Diversifique las fuentes de datos e incluya información representativa de una amplia variedad de condiciones, contextos y datos demográficos.
  • Fomente la diversidad en los equipos para promover un diseño y desarrollo de la IA inclusivos.
  • Para garantizar la transparencia, emplee técnicas de IA explicable, como las explicaciones locales interpretables independientes del modelo (LIME), que sirven para explicar la predicción de los clasificadores mediante algoritmos de ML, y las explicaciones aditivas de Shapley (SHAP), que sirven para explicar el output de cualquier modelo de ML.
  • Incorpore métricas de equidad en el proceso de desarrollo y utilice herramientas y marcos algorítmicos de equidad.
  • Realice auditorías periódicas para evaluar los datos y los algoritmos en busca de sesgos.
  • Implemente una monitorización continua del rendimiento de los modelos de ML implementados para detectar y corregir rápidamente los sesgos en los resultados.
Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo