¿Qué es el rendimiento del modelo?

Coches de carreras de F1 alineados antes de una carrera

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el rendimiento del modelo?

El rendimiento del modelo indica qué tan bien un modelo de machine learning (ML) lleva a cabo la tarea para la que fue diseñado, basado en diversas métricas. Medir el rendimiento del modelo es esencial para optimizar un modelo de machine learning (ML) antes de lanzarlo a producción y mejorarlo después del despliegue. Sin una optimización adecuada, los modelos pueden producir predicciones inexactas o poco confiables y sufrir ineficiencias, lo que lleva a un rendimiento deficiente.

La evaluación del rendimiento del modelo ocurre durante las etapas de evaluación del modelo y monitoreo del modelo de una canalización de machine learning. Después de que los profesionales de inteligencia artificial (IA) trabajan en las fases iniciales de los proyectos de machine learning (ML), evalúan el rendimiento de un modelo en múltiples conjuntos de datos, tareas y métricas para medir su efectividad. Una vez que se despliega el modelo, los equipos de operaciones de machine learning (MLOps) monitorean el rendimiento del modelo para una mejora continua.

Factores que afectan el rendimiento del modelo

El rendimiento de un modelo de IAgeneralmente se mide mediante un conjunto de pruebas, comparando los resultados del modelo con las predicciones en el conjunto de pruebas de referencia. Los insights obtenidos de la evaluación del rendimiento ayudan a determinar si un modelo está listo para el despliegue en el mundo real o si necesita ajustes o capacitación adicional.

Estos son algunos factores que pueden afectar el rendimiento de un modelo de machine learning:

  • Data quality
  • Filtración de información
  • Selección de características
  • Ajuste del modelo
  • Model drift
  • Sesgo

Calidad de los datos

Un modelo es tan bueno como los datos utilizados para entrenarlo. El rendimiento del modelo se queda corto cuando sus datos de entrenamiento son defectuosos y contienen imprecisiones o incoherencias, como duplicados, missing values y etiquetas o anotaciones de datos incorrectas. La falta de equilibrio, como tener demasiados valores para un escenario sobre otro o un conjunto de datos de entrenamiento que no es suficiente o lo suficientemente diverso como para capturar correctamente las correlaciones, también puede conducir a resultados sesgados.

Fuga de datos

Fuga de datos en machine learning ocurre cuando un modelo utiliza información durante el entrenamiento que no estaría disponible en el momento de la predicción. Esto puede deber a errores de preprocesamiento de datos o contaminación debido a una división incorrecta de los datos en conjuntos de entrenamiento, validación y prueba. La fuga de datos hace que un modelo predictivo tenga dificultades para generalizar sobre datos no vistos, produzca resultados inexactos o poco fiables, o infle o desinfle las métricas de rendimiento.

Selección de características

La selección de características implica elegir las características más relevantes de un conjunto de datos que se utilizarán para el entrenamiento de modelos. Las características de datos influyen en la forma en que los algoritmos de machine learning configuran sus pesos durante el entrenamiento, lo que a su vez impulsa el rendimiento. Además, reducir el espacio de características a un subconjunto seleccionado puede ayudar a mejorar el rendimiento mientras reduce las demandas computacionales. Sin embargo, elegir características irrelevantes o insignificantes puede debilitar el rendimiento del modelo.

Ajuste del modelo

Desviación del modelo

La desviación del modelo se refiere a la degradación del rendimiento de un modelo debido a cambios en los datos o en las relaciones entre las variables de entrada y salida. Este deterioro puede afectar negativamente el rendimiento del modelo, lo que lleva a una toma de decisiones defectuosa y a malas predicciones.

Sesgo

Sesgo en la IA se puede introducir en cualquier fase de un flujo de trabajo de machine learning, pero es particularmente frecuente en las etapas de procesamiento de datos y desarrollo de modelos. El sesgo de datos ocurre cuando la naturaleza no representativa del entrenamiento y el ajuste de los conjuntos de datos afecta negativamente el comportamiento y el rendimiento del modelo. Mientras tanto, sesgo algorítmico no es causado por el algoritmo en sí, sino por la forma en que los equipos de ciencia de datos recopilan y codifican los datos de entrenamiento y la forma en que los programadores de IA diseñan y desarrollan algoritmos de machine learning. El sesgo de la IA puede generar resultados inexactos y resultados potencialmente dañinos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Métricas de rendimiento del modelo

Es importante alinear las métricas con los objetivos comerciales que debe cumplir un modelo. Aunque cada tipo de modelo de machine learning tiene su propio conjunto de métricas de evaluación, muchos modelos Comparten algunas medidas en común:

  • Exactitud
  • Recordar
  • precisión
  • Puntuación F1

Exactitud

La precisión se calcula como el número de predicciones correctas dividido por el número total de predicciones. Este porcentaje es una métrica muy común.

La precisión del modelo y el rendimiento del modelo a menudo se comparan, pero la precisión del modelo es solo una parte del rendimiento del modelo. Y aunque están entrelazadas, las predicciones precisas por sí solas no pueden proporcionar una visión holística de qué tan bien funciona un modelo.

Recuperación

Recall cuantifica el número de verdaderos positivos: las predicciones correctas reales. También se conoce como tasa de sensibilidad o tasa de verdaderos positivos (TPR).

Esta métrica es crítica en la atención sanitaria, por ejemplo, a la hora de diagnosticar enfermedades o detectar el cáncer. Un modelo de aprendizaje automático (ML) con un alto nivel de recuperación puede identificar correctamente los casos positivos y minimizar los falsos negativos (casos positivos reales predichos incorrectamente como casos negativos). 

Recall=TPTP+FN

Precisión

La precisión es la proporción de predicciones positivas que son positivas reales. Un modelo de machine learning con alta precisión puede minimizar los falsos positivos (casos negativos reales predichos incorrectamente como casos positivos).

Esta métrica es crucial en finanzas, por ejemplo, al detectar fraudes. Las transacciones marcadas deben ser fraudulentas (verdaderos positivos), ya que marcar transacciones legítimas como fraudulentas (falsos positivos) puede tener consecuencias negativas.

 Precision=TPTP+FP 

Puntuación F1

El puntaje F1 es la media armónica de recall y precisión, y combina ambas métricas en una sola. Considera que las dos medidas tienen el mismo peso para equilibrar los falsos positivos o falsos negativos. Es especialmente útil para conjuntos de datos desequilibrados, como cuando se detectan enfermedades raras, ya que los casos negativos superan con creces a los positivos.

 F1=2*Precision*RecallPrecision+Recall 

Muchos marcos de IA, como PyTorch basado en Python , scikit-learn y TensorFlow, ofrecen funciones integradas para calcular la exactitud, la recuperación, la precisión y la puntuación F1. También proporcionan visualizaciones de las predicciones del modelo como una matriz de confusión, una tabla que representa los valores predichos y reales, con cuadros que representan el número de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.

Diagrama que representa la matriz de confusión

Métricas de rendimiento del modelo de clasificación

Los modelos de clasificación clasifican los puntos de datos en grupos predefinidos llamados clases. Estas son algunas métricas específicas de los modelos de clasificación:

  • Curva ROC: Una curva de características operativas del receptor (ROC) visualiza la proporción de verdaderos positivos con respecto a los verdaderos negativos. El gráfico traza la tasa positiva verdadera frente a la tasa negativa verdadera para cada umbral utilizado en la clasificación del modelo. La estadística del área bajo la curva (AUC) surge de la curva ROC y mide la probabilidad de que un positivo seleccionado al azar tenga una puntuación de confianza más alta que un negativo aleatorio. AUC-ROC es una métrica útil para tareas que implican clasificación binaria (clasificación de datos en dos clases exclusivas).
  • Pérdida logarítmica: La pérdida logarítmica valoriza la confianza de las clasificaciones de un modelo, penalizando más fuertemente las clasificaciones incorrectas seguras que las menos seguras. Esto es particularmente útil al abordar resultados probabilísticos, ya que los modelos aprenden a tener confianza en las clasificaciones correctas e inciertos sobre las incorrectas. Los valores de pérdida logarítmica más bajos denotan un mejor desempeño.

Métricas de rendimiento del modelo de regresión

Los modelos de regresión se emplean para realizar pronósticos que involucran valores continuos, como estimaciones de ventas de venta minorista y pronósticos de precios de acciones. Dado que estos algoritmos tratan conceptos cuantificables, sus métricas miden errores en las predicciones:

  • El error absoluto medio (MAE) se calcula como la suma del valor absoluto de todos los errores dividido por el tamaño de la muestra. Mide la diferencia absoluta promedio entre el valor previsto y el valor real.

  • El error cuadrático medio (MSE) se calcula como el promedio de las diferencias al cuadrado entre el valor predicho y el valor real en todas las muestras de entrenamiento. Elevar al cuadrado el error castiga los grandes errores e incentiva al modelo a reducirlos.

  • El error cuadrático medio (RMSE) es la raíz cuadrada del MSE. Cuadrar los errores antes de promediarlos castiga aún más los errores más grandes, lo que nuevamente alienta a los modelos a minimizarlos.

Métricas de rendimiento del modelo de procesamiento de lenguaje natural

Estas métricas evalúan el rendimiento de los modelos de procesamiento de lenguaje natural (PLN). También se utilizan como puntos de referencia para modelos de lenguaje de gran tamaño (LLM).

Estas son algunas medidas cuantitativas del modelo de PLN:

  • La perplejidad mide qué tan bueno es un modelo para predecir. Cuanto menor sea el puntaje de perplejidad de un LLM, mejor será su capacidad para comprender una tarea.

  • Bilingual evaluation understudy evalúa la traducción automática calculando los n-gramas coincidentes (una secuencia de n símbolos de texto adyacentes) entre la traducción prevista de un LLM y una traducción producida por humanos.

  • Recall-oriented understudy for gisting evaluation (ROUGE) evalúa la síntesis de texto y tiene varios tipos. ROUGE-N, por ejemplo, realiza cálculos similares a BLEU para los resúmenes, mientras que ROUGE-L calcula la subsecuencia común más larga entre el resumen predicho y el resumen producido por humanos.

Las métricas cualitativas abarcan medidas como la coherencia, la relevancia y el significado semántico y, por lo general, involucran a evaluadores humanos que examinan y califican modelos. Un equilibrio de métricas cuantitativas y cualitativas puede hacer que la evaluación sea más matizada.

Métricas de rendimiento del modelo de visión artificial

Los modelos de visión artificial, en particular los de segmentación de instancias y detección de objetos, se evalúan utilizando estas dos medidas de rendimiento comunes:

  • Intersección sobre unión (IoU) calcula la relación del área de intersección sobre el área de unión. La intersección cubre las secciones superpuestas entre un cuadro delimitador que demarca un objeto detectado según lo predicho por un modelo y el objeto real. La unión denota el área total tanto del cuadro delimitador como del objeto real. Los modelos de visión artificial utilizan IoU para evaluar la precisión de la localización de objetos detectados.

  • La precisión media (mAP) calcula la media de todos los puntajes de precisión media de las clases de objetos. Los modelos de visión artificial usan IoU para evaluar la precisión de la predicción y la detección.

Estrategias para mejorar el rendimiento del modelo

La mayoría de las técnicas para optimizar el rendimiento del machine learning se implementan durante el desarrollo, el entrenamiento y la evaluación del modelo. Sin embargo, una vez que un modelo se despliega en el mundo real, se debe realizar un seguimiento constante de su rendimiento. El monitoreo de modelos informa las decisiones sobre cómo mejorar el rendimiento a lo largo del tiempo. 

El refinamiento del rendimiento del modelo de machine learning (ML) implica una o más de estas técnicas:

  • Preprocesamiento de datos
  • Evitar la fuga de datos
  • Elegir las características adecuadas
  • Ajuste de hiperparámetros
  • Ensemble learning
  • Transferir aprendizaje
  • Lograr un ajuste óptimo del modelo
  • Protección contra la deriva del modelo
  • Abordar el sesgo

Muchos marcos de IA tienen características prediseñadas que admiten la mayoría de estas técnicas.

Preprocesamiento de datos

Establecer y mantener procedimientos rigurosos de data preparation puede ayudar a evitar problemas de calidad de los datos. Si bien la limpieza de datos , la eliminación de ruido y la normalización de datos son los pilares del preprocesamiento de datos, los científicos de datos también pueden utilizar herramientas de automatización de datos e incluso herramientas impulsadas por IA para ahorrar tiempo y esfuerzo y evitar errores humanos. En el caso de conjuntos de datos insuficientes o desequilibrados, los datos sintéticos pueden llenar los vacíos.

Evitar la fuga de datos

El manejo cuidadoso de los datos es clave para evitar la fuga de datos. Los datos deben dividirse adecuadamente en conjuntos de entrenamiento, validación y prueba, y el preprocesamiento se realiza por separado para cada conjunto.

La validación cruzada también puede ayudar. La validación cruzada divide los datos en varios subconjuntos y emplea otros diferentes para el entrenamiento y la validación en un número definido de iteraciones.

Elegir las características adecuadas

La selección de características puede ser un desafío y requiere experiencia en el dominio para identificar las características más esenciales e influyentes. Es importante comprender la importancia de cada característica y examinar la correlación entre las características y la variable objetivo (la variable dependiente que un modelo tiene la tarea de predecir).

Los métodos de selección de características para el aprendizaje supervisado incluyen métodos de envoltura y métodos integrados. Los métodos de envoltura entrenan un algoritmo de machine learning con diferentes subconjuntos de características, agregándolas o eliminándolas y probando los resultados en cada iteración para determinar el conjunto de características que conduce al rendimiento óptimo del modelo. Los métodos integrados integran la selección de características en el entrenamiento del modelo, identificando las características de bajo rendimiento y eliminándolas de futuras iteraciones.

Con el aprendizaje no supervisado, los modelos calculan las características, patrones y relaciones de los datos por sí mismos. Los métodos de selección de características para el aprendizaje no supervisado incluyen análisis de componentes principales (PCA), análisis de componentes independientes (ICA) y autocodificadores.

Ajuste de hiperparámetros

El ajuste de hiperparámetros, también conocido como optimización de hiperparámetros o ajuste de modelos, identifica, selecciona y optimiza los hiperparámetros de un modelo de aprendizaje profundo para obtener el mejor rendimiento de entrenamiento. Los hiperparámetros gobiernan el proceso de aprendizaje de un modelo, y encontrar la combinación y configuración correctas de hiperparámetros puede fortalecer el rendimiento del modelo en el mundo real.

Los métodos comunes de ajuste de hiperparámetros incluyen búsqueda en cuadrícula, búsqueda aleatoria, optimización bayesiana e hiperbanda. Los científicos de datos también pueden implementar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos que se ajustan a su caso de uso.

Aprendizaje en conjunto

El aprendizaje en conjunto combina múltiples modelos para mejorar el desempeño predictivo, con el supuesto de que un colectivo o conjunto de modelos puede producir mejores predicciones que un solo modelo solo.

Estas son algunas técnicas populares de aprendizaje por conjuntos:

  • El bagging, también llamado agregación bootstrap, entrena modelos en paralelo e independientes entre sí. Luego toma el promedio (para tareas de regresión) o mayoría (para problemas de clasificación) de las predicciones para calcular una estimación más precisa.

Diagrama que representa el bagging en el contexto del aprendizaje por conjuntos.
  • Boosting entrena modelos secuencialmente, corrigiendo errores pasados en cada iteración. Da más peso a las instancias erróneas o mal clasificadas en los modelos posteriores, centrándose así en puntos de datos desafiantes y mejorando el rendimiento a lo largo del camino.

Diagrama que representa el impulso en el contexto del aprendizaje por conjuntos.
  • El apilamiento entrena modelos a partir del mismo conjunto de datos, pero aplica un algoritmo de entrenamiento diferente para cada uno. Luego utiliza las predicciones compiladas o apiladas para entrenar un modelo final.

Diagrama que representa el apilamiento en el contexto del aprendizaje por conjuntos.

Transferir aprendizaje

El aprendizaje por transferencia toma el conocimiento adquirido por un modelo previamente entrenado en una tarea o conjunto de datos inicial y lo aplica a una tarea o conjunto de datos objetivo nuevo pero relacionado. Reutilizar un modelo previamente entrenado para una tarea diferente aumenta las capacidades de generalización de ese modelo, lo que ayuda a optimizar el rendimiento.

Alcanzando un ajuste óptimo del modelo

Gestión del sobreajuste y el subajuste es un desafío central en el machine learning. Un modelo de ajuste óptimo reconoce con precisión patrones en los datos sin ser demasiado sensible a las fluctuaciones aleatorias o al ruido.

Las técnicas para evitar el sobreajuste y el subajuste incluyen encontrar la duración adecuada del entrenamiento para dar a los modelos el tiempo suficiente para aprender, el aumento de datos para ampliar el conjunto de entrenamiento y la regularización para reducir la varianza en un modelo aplicando una penalización a los parámetros de entrada con coeficientes más grandes.

Protección contra la deriva del modelo

La detección de desviaciones, un aspecto central del monitoreo y la observabilidad del modelo, puede ayudar a proteger contra la desviación del modelo. Por ejemplo, los detectores de desviación de IA reconocen automáticamente cuando la precisión de un modelo disminuye o se desplaza por debajo de un umbral predefinido, mientras que las herramientas de monitoreo observan continuamente los escenarios de desviación.

Una vez que se detecta la desviación, los modelos de aprendizaje automático (ML) se pueden actualizar en tiempo real o volver a entrenar utilizando un nuevo conjunto de datos que contiene muestras más recientes y relevantes.

Abordar el sesgo

La mitigación del sesgo de la IA comienza con la gobernanza de la IA, que abarca barandillas, procesos y normas que ayudan a garantizar que los sistemas y herramientas de IA sean éticos y seguros. He aquí algunas prácticas IA responsable que pueden evitar los prejuicios:

  • Diversifique las fuentes de datos e incluya datos representativos de una amplia variedad de condiciones, contextos y datos demográficos.
  • Cultive equipos diversos para promover el diseño y el desarrollo de IA inclusivos.
  • Emplear técnicas de IA explicables para la transparencia, como Explicaciones Inagnósticas del Modelo Interpretable Local (LIME) para explicar la predicción de clasificadores mediante algoritmos de aprendizaje automático (ML) y Explicaciones Aditivas Shapley (SHAP) para explicar los resultados de cualquier modelo de aprendizaje automático (ML).
  • Incorporar métricas de equidad en el proceso de desarrollo y emplear herramientas y marcos algorítmicos de equidad.
  • Realice auditorías periódicas para evaluar los datos y los algoritmos en busca de sesgos.
  • Implemente un monitoreo continuo del rendimiento de los modelos de machine learning (ML) desplegados para detectar y corregir rápidamente el sesgo en los resultados.
Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo