El rendimiento de un modelo de machine learning (ML) indica el grado de eficacia con el que lleva a cabo la tarea para la que fue diseñado, basándose en diversas métricas. Medir el rendimiento del modelo es esencial para optimizarlo antes de ponerlo en producción y para mejorarlo tras su implementación. Sin una optimización adecuada, los modelos pueden generar predicciones inexactas o poco fiables, y presentar ineficiencias, lo que se traduce en un rendimiento deficiente.
La evaluación del rendimiento del modelo ocurre durante las etapas de evaluación y monitorización del modelo de un pipeline de machine learning. Tras la intervención de los profesionales de la inteligencia artificial (IA) en las fases iniciales de los proyectos de ML, se evalúa el rendimiento del modelo en múltiples conjuntos de datos, tareas y métricas para medir su eficacia. Una vez implementado el modelo, los equipos de operaciones de machine learning (MLOps) monitorizan su rendimiento para mejorarlo de forma continua.
El rendimiento de un modelo de IA suele medirse con un conjunto de pruebas, comparando los outputs del modelo con las predicciones del conjunto de referencia. Los conocimientos obtenidos al evaluar el rendimiento ayuda a determinar si un modelo está listo para implementarse en el mundo real o si necesita ajustes o formación adicionales.
A continuación, se indican algunos factores que pueden afectar al rendimiento de un modelo de machine learning:
La calidad del modelo depende de la calidad de los datos utilizados para entrenarlo. El rendimiento del modelo se ve afectado cuando los datos de entrenamiento contienen imprecisiones o inconsistencias, como duplicados, valores faltantes, anotaciones o etiquetas de datos incorrectas. La falta de equilibrio, como tener demasiados valores para un escenario en comparación con otro, o un conjunto de datos de entrenamiento que no sea lo suficientemente amplio o diverso como para capturar correctamente las correlaciones, también puede dar lugar a resultados sesgados.
La fuga de datos en el machine learning se produce cuando un modelo utiliza, durante el entrenamiento, información que no estaría disponible en el momento de la predicción. Esto puede deberse a errores en el procesamiento previo de los datos o a la contaminación debida a una división inadecuada de los datos en conjuntos de entrenamiento, validación y prueba. La fuga de datos puede provocar que un modelo predictivo tenga dificultades para generalizar datos no vistos, que arroje resultados inexactos o poco fiables o que infle o deflate las métricas de rendimiento.
La selección de características implica elegir las características más relevantes de un conjunto de datos para usarlas en el entrenamiento del modelo. Las características de los datos influyen en la forma en que los algoritmos de machine learning configuran sus ponderaciones durante el entrenamiento, lo que a su vez impulsa el rendimiento. Además, reducir el espacio de características a un subconjunto seleccionado puede ayudar a mejorar el rendimiento y a reducir las exigencias computacionales. No obstante, si se eligen características irrelevantes o insignificantes, el rendimiento del modelo puede verse afectado.
El sobreajuste se produce cuando un modelo de ML es demasiado complejo y se ajusta en exceso a los datos de entrenamiento, por lo que no se generaliza bien a datos nuevos. Por el contrario, el subajuste ocurre cuando un modelo es tan simple que no logra capturar los patrones subyacentes en los datos de entrenamiento y de prueba.
La deriva del modelo se refiere al deterioro del rendimiento de este debido a cambios en los datos o en las relaciones entre las variables de entrada y salida. Este deterioro puede afectar negativamente al rendimiento del modelo y dar lugar a una toma de decisiones errónea y a predicciones incorrectas.
El sesgo en la IA se puede introducir en cualquier fase del flujo de trabajo de machine learning, pero es especialmente frecuente en las fases de proceso de datos y desarrollo de modelos. El sesgo de datos se produce cuando la naturaleza poco representativa de los conjuntos de datos de entrenamiento y ajuste afecta negativamente al comportamiento y al rendimiento del modelo. Por otra parte, el sesgo algorítmico no está causado por el algoritmo en sí, sino por la forma en que los equipos de ciencia de datos recopilan y codifican los datos de entrenamiento, así como por la manera en que los programadores de IA diseñan y desarrollan los algoritmos de machine learning. El sesgo de la IA puede dar lugar a outputs inexactos y potencialmente perjudiciales.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Es importante alinear las métricas con los objetivos empresariales que debe cumplir un modelo. Aunque cada tipo de modelo de machine learning tiene su propio conjunto de métricas de evaluación, muchos modelos comparten algunas medidas comunes:
La precisión se calcula dividiendo el número de predicciones correctas entre el número total de predicciones. Este porcentaje es una métrica muy habitual.
La precisión y el rendimiento de los modelos suelen ir de la mano, pero la precisión es solo una parte del rendimiento. Y, aunque están interrelacionadas, las predicciones precisas por sí solas no ofrecen una visión global del rendimiento de un modelo.
La tasa de recuperación cuantifica el número de verdaderos positivos, es decir, las predicciones correctas. También se conoce como tasa de sensibilidad o tasa de verdaderos positivos (TPR).
Esta métrica es crítica en el ámbito sanitario, por ejemplo, para diagnosticar enfermedades o detectar cáncer. Un modelo de ML con un alto nivel de precisión puede identificar correctamente los casos positivos y minimizar los falsos negativos, es decir, casos positivos reales que se predicen erróneamente como negativos.
La precisión es la proporción de predicciones positivas que son realmente positivas. Un modelo de machine learning con alta precisión puede minimizar los falsos positivos, es decir, casos negativos reales que se predicen incorrectamente como positivos.
Esta métrica es crucial en el ámbito financiero, por ejemplo, a la hora de detectar fraudes. Las transacciones marcadas como fraudulentas deben serlo realmente (verdaderos positivos), ya que marcar transacciones legítimas como fraudulentas (falsos positivos) puede tener consecuencias negativas.
La puntuación F1 es la media armónica de la recuperación y la precisión, y combina ambas métricas en una sola. Tiene en cuenta que las dos medidas tienen el mismo peso para equilibrar los falsos positivos y los falsos negativos. Es especialmente útil con conjuntos de datos desequilibrados, por ejemplo, en la detección de enfermedades raras, donde los casos negativos superan con creces a los positivos.
Muchos marcos de IA, como PyTorch basado en Python, scikit-learn y TensorFlow, ofrecen funciones integradas para calcular la precisión, la recuperación, la exactitud y la puntuación F1. También proporcionan visualizaciones de predicciones del modelo como una matriz de confusión: una tabla que representa valores predichos y reales, con cuadros que representan el número de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.
Los modelos de clasificación agrupan los puntos de datos en clases predefinidas. A continuación, se muestran algunas métricas específicas de los modelos de clasificación:
Los modelos de regresión se utilizan para hacer predicciones de valores continuos, como estimaciones de ventas minoristas o previsiones del precio de las acciones. Dado que estos algoritmos trabajan con conceptos cuantificables, sus métricas miden los errores de predicción:
El error absoluto medio (MAE) se calcula mediante la suma del valor absoluto de todos los errores y la división del resultado por el tamaño de la muestra. Mide la diferencia absoluta media entre el valor previsto y el real.
El error cuadrático medio (MSE) se calcula como la media de las diferencias al cuadrado entre el valor predicho y el valor real en todas las muestras de entrenamiento. Elevar al cuadrado el error penaliza los errores grandes e incentiva al modelo para que los reduzca.
El error cuadrático medio (RMSE) es la raíz cuadrada del MSE. Elevar los errores al cuadrado antes de promediarlos penaliza aún más los errores más grandes, lo que vuelve a incentivar a los modelos para que los minimicen.
Estas métricas evalúan el rendimiento de los modelos de procesamiento del lenguaje natural (PLN). También se utilizan como puntos de referencia para modelos de lenguaje de gran tamaño (LLM).
A continuación, se presentan algunas medidas cuantitativas del modelo de PLN:
La perplejidad mide lo bueno que es un modelo en la predicción. Cuanto menor sea la puntuación de perplejidad de un LLM, mejor comprenderá una tarea.
El estudio de evaluación bilingüe (BLEU) evalúa la traducción automática calculando los n-gramas coincidentes (una secuencia de n símbolos de texto adyacentes) entre la traducción prevista de un LLM y una traducción producida por humanos.
El estudio orientado al recuerdo para la evaluación de resumen (ROUGE) evalúa el resumen de texto y cuenta con varios tipos. ROUGE-N, por ejemplo, realiza cálculos similares a BLEU para resúmenes, mientras que ROUGE-L calcula la subsecuencia común más larga entre el resumen previsto y el elaborado por humanos.
Las métricas cualitativas incluyen medidas como la coherencia, la relevancia y el significado semántico, y suelen requerir que evaluadores humanos examinen y puntúen los modelos. Un equilibrio entre las métricas cuantitativas y cualitativas puede dar lugar a una evaluación más matizada.
Los modelos de visión artificial, en particular los de segmentación de instancias y detección de objetos, se evalúan utilizando estas dos medidas de rendimiento comunes:
La intersección sobre la unión (IoU) calcula la relación entre el área de intersección y el área de unión. La intersección abarca las secciones superpuestas entre el cuadro delimitador que marca un objeto detectado según lo predicho por un modelo y el objeto real. La unión denota el área total del cuadro delimitador y del objeto real. Los modelos de visión artificial utilizan la IoU para evaluar la precisión de la localización de los objetos detectados.
La precisión media (mAP) calcula la media de todas las puntuaciones de precisión media en todas las clases de objetos. Los modelos de visión artificial utilizan el IoU para evaluar la precisión de la predicción y la detección.
La mayoría de las técnicas para optimizar el rendimiento del machine learning se implementan durante el desarrollo, la formación y la evaluación del modelo. Sin embargo, una vez que el modelo se implementa en el mundo real, es necesario realizar un seguimiento constante de su rendimiento. La monitorización del modelo permite tomar decisiones fundamentadas sobre cómo mejorar el rendimiento con el tiempo.
El perfeccionamiento del rendimiento del modelo de ML puede implicar una o varias de estas técnicas:
Muchos marcos de IA tienen características preintegradas que admiten la mayoría de estas técnicas.
Establecer y mantener procedimientos rigurosos de preprocesamiento y preparación de los datos puede ayudar a evitar problemas de calidad. Aunque la limpieza, la eliminación del ruido y la normalización de los datos son pilares fundamentales del preprocesamiento, los científicos de datos también pueden utilizar herramientas de automatización de datos e incluso herramientas con IA para ahorrar tiempo y esfuerzo, y evitar errores humanos. En el caso de conjuntos de datos insuficientes o desequilibrados, los datos sintéticos pueden llenar los vacíos.
El manejo cuidadoso de los datos es fundamental para evitar fugas de información. Dichos datos deben dividirse adecuadamente en conjuntos de entrenamiento, validación y prueba, y el preprocesamiento debe realizarse por separado para cada conjunto.
La validación cruzada también puede resultar útil. Consiste en dividir los datos en varios subconjuntos y utilizar diferentes conjuntos para el entrenamiento y la validación en un número definido de iteraciones.
La selección de características puede resultar complicada y requiere conocimientos especializados para identificar las más esenciales e influyentes. Es importante comprender la importancia de cada una de ellas y examinar su correlación con la variable objetivo (la variable dependiente que el modelo debe predecir).
Los métodos de selección de características para el aprendizaje supervisado se clasifican en métodos envolventes y métodos integrados. Los métodos envolventes entrenan un algoritmo de machine learning con diferentes subconjuntos de características, añadiéndolas o eliminándolas, y comprueban los resultados en cada iteración para determinar el conjunto de características que proporciona un rendimiento óptimo del modelo. Por su parte, los métodos integrados incorporan la selección de características en el entrenamiento del modelo, de modo que identifican las características con bajo rendimiento y las eliminan de futuras iteraciones.
En el aprendizaje no supervisado, los modelos determinan por sí mismos las características, los patrones y las relaciones de los datos. Entre los métodos de selección de características para el aprendizaje no supervisado se encuentran el análisis de componentes principales (PCA), el análisis de componentes independientes (ICA) y los autocodificadores.
El ajuste de hiperparámetros, también conocido como optimización de hiperparámetros o ajuste de modelos, identifica, selecciona y optimiza los hiperparámetros de un modelo de deep learning para obtener el mejor rendimiento de entrenamiento. Los hiperparámetros controlan el proceso de aprendizaje de un modelo y encontrar la combinación y configuración adecuadas puede mejorar su rendimiento en el mundo real.
Entre los métodos comunes de ajuste de hiperparámetros se encuentran la búsqueda por cuadrícula, la búsqueda aleatoria, la optimización bayesiana y la hiperbanda. Los científicos de datos también pueden implementar métodos automatizados para descubrir algorítmicamente los hiperparámetros óptimos que se ajusten a su caso de uso.
El aprendizaje conjunto combina varios modelos para mejorar el rendimiento predictivo, partiendo de la premisa de que un conjunto de modelos puede producir mejores predicciones que un solo modelo.
A continuación, se presentan algunas técnicas populares de aprendizaje conjunto:
El bagging, también llamado agregación bootstrap, entrena modelos en paralelo e independientemente entre sí. A continuación, calcula una estimación más precisa tomando la media (en tareas de regresión) o la mayoría (en problemas de clasificación) de las predicciones.
El boosting entrena los modelos de forma secuencial, y corrige los errores pasados en cada iteración. Otorga mayor importancia a las instancias erróneas o mal clasificadas en los modelos posteriores, lo que le permite centrarse en los puntos de datos más difíciles y mejorar el rendimiento a lo largo del proceso.
El stacking apila modelos de entrenamiento a partir del mismo conjunto de datos, pero aplica un algoritmo de entrenamiento diferente a cada uno. A continuación, se utilizan las predicciones compiladas o apiladas para entrenar un modelo final.
El aprendizaje por transferencia consiste en aprovechar el conocimiento adquirido por un modelo preentrenado en una tarea o conjunto de datos iniciales y aplicarlo a una tarea o conjunto de datos nuevos, pero relacionados. Reutilizar un modelo preentrenado para una tarea diferente aumenta sus capacidades de generalización, lo que ayuda a optimizar el rendimiento.
Gestionar el sobreajuste y el subajuste es un reto fundamental en el machine learning. Un modelo óptimamente ajustado reconoce los patrones de los datos con precisión sin verse demasiado afectado por las fluctuaciones aleatorias o el ruido.
Entre las técnicas para evitar el sobreajuste y el subajuste se encuentran: encontrar la duración adecuada del entrenamiento para que los modelos dispongan de tiempo suficiente para aprender, aumentar los datos para ampliar el conjunto de entrenamiento y aplicar la regularización para reducir la varianza en un modelo mediante la penalización de los parámetros de entrada con coeficientes más grandes.
La detección de la deriva, aspecto fundamental de la monitorización y la observabilidad de los modelos, puede ayudar a protegerse de ellas. Por ejemplo, los detectores de la deriva de la IA reconocen automáticamente cuándo la precisión de un modelo disminuye por debajo de un umbral predefinido, mientras que las herramientas de monitorización observan continuamente los escenarios de deriva.
Una vez detectada la deriva, los modelos de ML (aprendizaje automático) pueden actualizarse en tiempo real o volver a entrenarse utilizando un nuevo conjunto de datos que contenga muestras más recientes y relevantes.
La mitigación del sesgo de la IA comienza con el gobierno de la IA, que incluye barreras de protección, procesos y normas que ayudan a garantizar que los sistemas y herramientas de IA sean éticos y seguros. A continuación, se presentan algunas prácticas de IA responsable que pueden ayudar a evitar el sesgo:
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.