El rendimiento del modelo indica qué tan bien un modelo de machine learning (ML) lleva a cabo la tarea para la que fue diseñado, basado en diversas métricas. Medir el rendimiento del modelo es esencial para optimizar un modelo de machine learning (ML) antes de lanzarlo a producción y mejorarlo después del despliegue. Sin una optimización adecuada, los modelos pueden producir predicciones inexactas o poco confiables y sufrir ineficiencias, lo que lleva a un rendimiento deficiente.
La evaluación del rendimiento del modelo ocurre durante las etapas de evaluación del modelo y monitoreo del modelo de una canalización de machine learning. Después de que los profesionales de inteligencia artificial (IA) trabajan en las fases iniciales de los proyectos de machine learning (ML), evalúan el rendimiento de un modelo en múltiples conjuntos de datos, tareas y métricas para medir su efectividad. Una vez que se despliega el modelo, los equipos de operaciones de machine learning (MLOps) monitorean el rendimiento del modelo para una mejora continua.
El rendimiento de un modelo de IAgeneralmente se mide mediante un conjunto de pruebas, comparando los resultados del modelo con las predicciones en el conjunto de pruebas de referencia. Los insights obtenidos de la evaluación del rendimiento ayudan a determinar si un modelo está listo para el despliegue en el mundo real o si necesita ajustes o capacitación adicional.
Estos son algunos factores que pueden afectar el rendimiento de un modelo de machine learning:
Un modelo es tan bueno como los datos utilizados para entrenarlo. El rendimiento del modelo se queda corto cuando sus datos de entrenamiento son defectuosos y contienen imprecisiones o incoherencias, como duplicados, missing values y etiquetas o anotaciones de datos incorrectas. La falta de equilibrio, como tener demasiados valores para un escenario sobre otro o un conjunto de datos de entrenamiento que no es suficiente o lo suficientemente diverso como para capturar correctamente las correlaciones, también puede conducir a resultados sesgados.
Fuga de datos en machine learning ocurre cuando un modelo utiliza información durante el entrenamiento que no estaría disponible en el momento de la predicción. Esto puede deber a errores de preprocesamiento de datos o contaminación debido a una división incorrecta de los datos en conjuntos de entrenamiento, validación y prueba. La fuga de datos hace que un modelo predictivo tenga dificultades para generalizar sobre datos no vistos, produzca resultados inexactos o poco fiables, o infle o desinfle las métricas de rendimiento.
La selección de características implica elegir las características más relevantes de un conjunto de datos que se utilizarán para el entrenamiento de modelos. Las características de datos influyen en la forma en que los algoritmos de machine learning configuran sus pesos durante el entrenamiento, lo que a su vez impulsa el rendimiento. Además, reducir el espacio de características a un subconjunto seleccionado puede ayudar a mejorar el rendimiento mientras reduce las demandas computacionales. Sin embargo, elegir características irrelevantes o insignificantes puede debilitar el rendimiento del modelo.
Elsobreajuste ocurre cuando un modelo de aprendizaje automático (ML) es demasiado complejo y se ajusta demasiado o incluso exactamente a sus datos de entrenamiento, por lo que no generaliza bien los datos nuevos. Por el contrario, el subajuste ocurre cuando un modelo es tan simple que no puede capturar los patrones subyacentes en los datos de entrenamiento y prueba.
La desviación del modelo se refiere a la degradación del rendimiento de un modelo debido a cambios en los datos o en las relaciones entre las variables de entrada y salida. Este deterioro puede afectar negativamente el rendimiento del modelo, lo que lleva a una toma de decisiones defectuosa y a malas predicciones.
Sesgo en la IA se puede introducir en cualquier fase de un flujo de trabajo de machine learning, pero es particularmente frecuente en las etapas de procesamiento de datos y desarrollo de modelos. El sesgo de datos ocurre cuando la naturaleza no representativa del entrenamiento y el ajuste de los conjuntos de datos afecta negativamente el comportamiento y el rendimiento del modelo. Mientras tanto, sesgo algorítmico no es causado por el algoritmo en sí, sino por la forma en que los equipos de ciencia de datos recopilan y codifican los datos de entrenamiento y la forma en que los programadores de IA diseñan y desarrollan algoritmos de machine learning. El sesgo de la IA puede generar resultados inexactos y resultados potencialmente dañinos.
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Es importante alinear las métricas con los objetivos comerciales que debe cumplir un modelo. Aunque cada tipo de modelo de machine learning tiene su propio conjunto de métricas de evaluación, muchos modelos Comparten algunas medidas en común:
La precisión se calcula como el número de predicciones correctas dividido por el número total de predicciones. Este porcentaje es una métrica muy común.
La precisión del modelo y el rendimiento del modelo a menudo se comparan, pero la precisión del modelo es solo una parte del rendimiento del modelo. Y aunque están entrelazadas, las predicciones precisas por sí solas no pueden proporcionar una visión holística de qué tan bien funciona un modelo.
Recall cuantifica el número de verdaderos positivos: las predicciones correctas reales. También se conoce como tasa de sensibilidad o tasa de verdaderos positivos (TPR).
Esta métrica es crítica en la atención sanitaria, por ejemplo, a la hora de diagnosticar enfermedades o detectar el cáncer. Un modelo de aprendizaje automático (ML) con un alto nivel de recuperación puede identificar correctamente los casos positivos y minimizar los falsos negativos (casos positivos reales predichos incorrectamente como casos negativos).
La precisión es la proporción de predicciones positivas que son positivas reales. Un modelo de machine learning con alta precisión puede minimizar los falsos positivos (casos negativos reales predichos incorrectamente como casos positivos).
Esta métrica es crucial en finanzas, por ejemplo, al detectar fraudes. Las transacciones marcadas deben ser fraudulentas (verdaderos positivos), ya que marcar transacciones legítimas como fraudulentas (falsos positivos) puede tener consecuencias negativas.
El puntaje F1 es la media armónica de recall y precisión, y combina ambas métricas en una sola. Considera que las dos medidas tienen el mismo peso para equilibrar los falsos positivos o falsos negativos. Es especialmente útil para conjuntos de datos desequilibrados, como cuando se detectan enfermedades raras, ya que los casos negativos superan con creces a los positivos.
Muchos marcos de IA, como PyTorch basado en Python , scikit-learn y TensorFlow, ofrecen funciones integradas para calcular la exactitud, la recuperación, la precisión y la puntuación F1. También proporcionan visualizaciones de las predicciones del modelo como una matriz de confusión, una tabla que representa los valores predichos y reales, con cuadros que representan el número de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.
Los modelos de clasificación clasifican los puntos de datos en grupos predefinidos llamados clases. Estas son algunas métricas específicas de los modelos de clasificación:
Los modelos de regresión se emplean para realizar pronósticos que involucran valores continuos, como estimaciones de ventas de venta minorista y pronósticos de precios de acciones. Dado que estos algoritmos tratan conceptos cuantificables, sus métricas miden errores en las predicciones:
El error absoluto medio (MAE) se calcula como la suma del valor absoluto de todos los errores dividido por el tamaño de la muestra. Mide la diferencia absoluta promedio entre el valor previsto y el valor real.
El error cuadrático medio (MSE) se calcula como el promedio de las diferencias al cuadrado entre el valor predicho y el valor real en todas las muestras de entrenamiento. Elevar al cuadrado el error castiga los grandes errores e incentiva al modelo a reducirlos.
El error cuadrático medio (RMSE) es la raíz cuadrada del MSE. Cuadrar los errores antes de promediarlos castiga aún más los errores más grandes, lo que nuevamente alienta a los modelos a minimizarlos.
Estas métricas evalúan el rendimiento de los modelos de procesamiento de lenguaje natural (PLN). También se utilizan como puntos de referencia para modelos de lenguaje de gran tamaño (LLM).
Estas son algunas medidas cuantitativas del modelo de PLN:
La perplejidad mide qué tan bueno es un modelo para predecir. Cuanto menor sea el puntaje de perplejidad de un LLM, mejor será su capacidad para comprender una tarea.
Bilingual evaluation understudy evalúa la traducción automática calculando los n-gramas coincidentes (una secuencia de n símbolos de texto adyacentes) entre la traducción prevista de un LLM y una traducción producida por humanos.
Recall-oriented understudy for gisting evaluation (ROUGE) evalúa la síntesis de texto y tiene varios tipos. ROUGE-N, por ejemplo, realiza cálculos similares a BLEU para los resúmenes, mientras que ROUGE-L calcula la subsecuencia común más larga entre el resumen predicho y el resumen producido por humanos.
Las métricas cualitativas abarcan medidas como la coherencia, la relevancia y el significado semántico y, por lo general, involucran a evaluadores humanos que examinan y califican modelos. Un equilibrio de métricas cuantitativas y cualitativas puede hacer que la evaluación sea más matizada.
Los modelos de visión artificial, en particular los de segmentación de instancias y detección de objetos, se evalúan utilizando estas dos medidas de rendimiento comunes:
Intersección sobre unión (IoU) calcula la relación del área de intersección sobre el área de unión. La intersección cubre las secciones superpuestas entre un cuadro delimitador que demarca un objeto detectado según lo predicho por un modelo y el objeto real. La unión denota el área total tanto del cuadro delimitador como del objeto real. Los modelos de visión artificial utilizan IoU para evaluar la precisión de la localización de objetos detectados.
La precisión media (mAP) calcula la media de todos los puntajes de precisión media de las clases de objetos. Los modelos de visión artificial usan IoU para evaluar la precisión de la predicción y la detección.
La mayoría de las técnicas para optimizar el rendimiento del machine learning se implementan durante el desarrollo, el entrenamiento y la evaluación del modelo. Sin embargo, una vez que un modelo se despliega en el mundo real, se debe realizar un seguimiento constante de su rendimiento. El monitoreo de modelos informa las decisiones sobre cómo mejorar el rendimiento a lo largo del tiempo.
El refinamiento del rendimiento del modelo de machine learning (ML) implica una o más de estas técnicas:
Muchos marcos de IA tienen características prediseñadas que admiten la mayoría de estas técnicas.
Establecer y mantener procedimientos rigurosos de data preparation puede ayudar a evitar problemas de calidad de los datos. Si bien la limpieza de datos , la eliminación de ruido y la normalización de datos son los pilares del preprocesamiento de datos, los científicos de datos también pueden utilizar herramientas de automatización de datos e incluso herramientas impulsadas por IA para ahorrar tiempo y esfuerzo y evitar errores humanos. En el caso de conjuntos de datos insuficientes o desequilibrados, los datos sintéticos pueden llenar los vacíos.
El manejo cuidadoso de los datos es clave para evitar la fuga de datos. Los datos deben dividirse adecuadamente en conjuntos de entrenamiento, validación y prueba, y el preprocesamiento se realiza por separado para cada conjunto.
La validación cruzada también puede ayudar. La validación cruzada divide los datos en varios subconjuntos y emplea otros diferentes para el entrenamiento y la validación en un número definido de iteraciones.
La selección de características puede ser un desafío y requiere experiencia en el dominio para identificar las características más esenciales e influyentes. Es importante comprender la importancia de cada característica y examinar la correlación entre las características y la variable objetivo (la variable dependiente que un modelo tiene la tarea de predecir).
Los métodos de selección de características para el aprendizaje supervisado incluyen métodos de envoltura y métodos integrados. Los métodos de envoltura entrenan un algoritmo de machine learning con diferentes subconjuntos de características, agregándolas o eliminándolas y probando los resultados en cada iteración para determinar el conjunto de características que conduce al rendimiento óptimo del modelo. Los métodos integrados integran la selección de características en el entrenamiento del modelo, identificando las características de bajo rendimiento y eliminándolas de futuras iteraciones.
Con el aprendizaje no supervisado, los modelos calculan las características, patrones y relaciones de los datos por sí mismos. Los métodos de selección de características para el aprendizaje no supervisado incluyen análisis de componentes principales (PCA), análisis de componentes independientes (ICA) y autocodificadores.
El ajuste de hiperparámetros, también conocido como optimización de hiperparámetros o ajuste de modelos, identifica, selecciona y optimiza los hiperparámetros de un modelo de aprendizaje profundo para obtener el mejor rendimiento de entrenamiento. Los hiperparámetros gobiernan el proceso de aprendizaje de un modelo, y encontrar la combinación y configuración correctas de hiperparámetros puede fortalecer el rendimiento del modelo en el mundo real.
Los métodos comunes de ajuste de hiperparámetros incluyen búsqueda en cuadrícula, búsqueda aleatoria, optimización bayesiana e hiperbanda. Los científicos de datos también pueden implementar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos que se ajustan a su caso de uso.
El aprendizaje en conjunto combina múltiples modelos para mejorar el desempeño predictivo, con el supuesto de que un colectivo o conjunto de modelos puede producir mejores predicciones que un solo modelo solo.
Estas son algunas técnicas populares de aprendizaje por conjuntos:
El bagging, también llamado agregación bootstrap, entrena modelos en paralelo e independientes entre sí. Luego toma el promedio (para tareas de regresión) o mayoría (para problemas de clasificación) de las predicciones para calcular una estimación más precisa.
Boosting entrena modelos secuencialmente, corrigiendo errores pasados en cada iteración. Da más peso a las instancias erróneas o mal clasificadas en los modelos posteriores, centrándose así en puntos de datos desafiantes y mejorando el rendimiento a lo largo del camino.
El apilamiento entrena modelos a partir del mismo conjunto de datos, pero aplica un algoritmo de entrenamiento diferente para cada uno. Luego utiliza las predicciones compiladas o apiladas para entrenar un modelo final.
El aprendizaje por transferencia toma el conocimiento adquirido por un modelo previamente entrenado en una tarea o conjunto de datos inicial y lo aplica a una tarea o conjunto de datos objetivo nuevo pero relacionado. Reutilizar un modelo previamente entrenado para una tarea diferente aumenta las capacidades de generalización de ese modelo, lo que ayuda a optimizar el rendimiento.
Gestión del sobreajuste y el subajuste es un desafío central en el machine learning. Un modelo de ajuste óptimo reconoce con precisión patrones en los datos sin ser demasiado sensible a las fluctuaciones aleatorias o al ruido.
Las técnicas para evitar el sobreajuste y el subajuste incluyen encontrar la duración adecuada del entrenamiento para dar a los modelos el tiempo suficiente para aprender, el aumento de datos para ampliar el conjunto de entrenamiento y la regularización para reducir la varianza en un modelo aplicando una penalización a los parámetros de entrada con coeficientes más grandes.
La detección de desviaciones, un aspecto central del monitoreo y la observabilidad del modelo, puede ayudar a proteger contra la desviación del modelo. Por ejemplo, los detectores de desviación de IA reconocen automáticamente cuando la precisión de un modelo disminuye o se desplaza por debajo de un umbral predefinido, mientras que las herramientas de monitoreo observan continuamente los escenarios de desviación.
Una vez que se detecta la desviación, los modelos de aprendizaje automático (ML) se pueden actualizar en tiempo real o volver a entrenar utilizando un nuevo conjunto de datos que contiene muestras más recientes y relevantes.
La mitigación del sesgo de la IA comienza con la gobernanza de la IA, que abarca barandillas, procesos y normas que ayudan a garantizar que los sistemas y herramientas de IA sean éticos y seguros. He aquí algunas prácticas IA responsable que pueden evitar los prejuicios:
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.