La evaluación de modelos se refiere al proceso de medir qué tan bien funciona un modelo de machine learning. Este proceso plantea la pregunta: cuando su modelo emite un juicio sobre el mundo real, ¿con qué frecuencia tiene razón? O, en los casos que se sitúan en un espectro, ¿hasta qué punto se acercaba a la verdad?
Cada vez más, el dinero real está en juego con la dependencia de las empresas de los modelos de IA. En febrero de 2021, los líderes de Zillow hicieron una gran apuesta basada en sus modelos de machine learning que predijeron los valores de las viviendas. No solo haría estas estimaciones, sino que a menudo Zillow compraría las viviendas a su precio modelo, a través de un negocio relacionado llamado Zillow Offers.
Apenas ocho meses después, Zillow cerró Zillow Offers y registró una depreciación de inventario por un valor de 304 millones de dólares. La causa, según la empresa, fue la compra de muchas viviendas por precios superiores a los que creía poder venderlas. Las acciones de la empresa se desplomaron y Zillow despidió a alrededor del 25 % de su personal.
¿La culpa? Su modelo de IA no era lo suficientemente preciso como para anticipar la evolución del mercado. Sus predicciones y pronósticos no coincidieron con los valores reales de las viviendas.1
A medida que los modelos de machine learning (ML) se extienden a los sectores de la atención médica, la contratación y la justicia penal, el costo de una evaluación deficiente puede causar un daño real a personas reales. En la ciencia de datos y la industria, obtener las métricas de evaluación de modelos correctas se ha convertido en una parte importante del despliegue de la IA de manera responsable.
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Los diferentes modelos están diseñados para hacer cosas diferentes.
Los modelos de clasificación etiquetan los datos entrantes como pertenecientes a una de unas pocas categorías. (Un modelo que marca que un paciente tiene sepsis o no es un modelo de clasificación).
Los modelos de regresión , en cambio, producen resultados dentro de un continuo. (El modelo de precios de las viviendas de Zillow era un modelo de regresión).
Los diferentes tipos de modelos requieren diferentes tipos de pruebas. A menudo, la triangulación del rendimiento a través de múltiples métricas es ideal porque ninguna métrica está exenta de incertidumbres.
Algunos modelos abordan los “problemas de clasificación”, lo que significa que dividen el mundo en categorías. Las métricas de clasificación son igualmente imprecisas. La precisión del modelo es bastante intuitiva: toma el número de predicciones correctas y lo divide por el número total. (En el aprendizaje automático, la palabra “predicción” se refiere a las conjeturas educadas que hacen los modelos, incluso si la suposición es sobre algo que está sucediendo ahora, en lugar de en el futuro).
El problema con la precisión del modelo es que un número elevado puede llevar a los stakeholders a una falsa sensación de seguridad. Un modelo diseñado para detectar un evento poco frecuente, pero catastrófico (por ejemplo, un tipo concreto de cáncer) podría clasificar automáticamente todas las exploraciones como negativas. Recibiría una alta precisión del modelo, porque el 99.99 % de esas lecturas negativas serían correctas. Pero esta alta precisión sería un consuelo para el paciente que recibió el raro falso negativo. El modelo era preciso desde el punto de vista técnico, pero no cumplió su función.
Resulta útil desglosar el rendimiento de un modelo de clasificación según los tipos de predicciones, o conjeturas fundamentadas, que realiza. En una tarea de clasificación binaria, como la detección del cáncer, hay cuatro resultados posibles (cuando se presenta en una cuadrícula de 2x2, este marco a menudo se denomina “matriz de confusión”):
Ya se puede empezar a entender por qué vale la pena desglosar estas categorías. Un diagnóstico de cáncer falso positivo sin duda sería traumático, hasta que pruebas adicionales revelaran que el episodio fue un susto médico. Pero una lectura falsa negativa puede ser fatal.
Los profesionales de la ciencia de datos han desarrollado una serie de submétricas para sondear el desempeño de los clasificadores y evaluar las relaciones entre los cuadrantes de la matriz de confusión.
La métrica llamada precisión pregunta: de todas las predicciones positivas que hizo un clasificador, ¿cuántas fueron correctas?
Un algoritmo de reconocimiento de imágenes montado en un automóvil pasa 10 intersecciones en un recorrido de prueba, seis de las cuales tienen señales de alto. Sin embargo, decir que un modelo “captó las seis señales de alto” sería evitar diferencias potenciales clave en la precisión. Si marcó las seis con precisión y no produjo falsos positivos, entonces tuvo una precisión de 6/6 o del 100 %. Sin embargo, si marcó esas seis, pero también alucinó cuatro señales de alto que no estaban allí, su precisión fue solo del 6/10, o un mero 60 %.
La métrica llamada recuperación (también conocida como “tasa positiva verdadera”) mide algo sutilmente diferente. La recuperación pregunta, de todas las señales de alto que efectivamente estaban allí, ¿cuántas captó el modelo?
Imagine otro recorrido de prueba con 100 intersecciones, 50 de las cuales tienen señales de alto. Un modelo que capte 30 de estas señales de alto tendría una recuperación del 60 %; 40 de estos, 80 %; y así sucesivamente. (La recuperación no se preocupa por las falsas alarmas, por lo que en teoría uno puede “jugar” con la recuperación el 100 % enseñando a un modelo a ver señales de alto en todas partes).
Estas dos métricas, la precisión y la recuperación, existen en tensión. Un ingeniero que intente mejorar la recuperación podría excederse y crear un modelo que genere falsos positivos con demasiada frecuencia. A menudo, ajustar un modelo consiste en encontrar un equilibrio entre una mayor recuperación (captar todo el fenómeno que se busca detectar) y una menor precisión (ir más allá de lo deseado y captar también falsos positivos).
Para encontrar este equilibrio, los profesionales de machine learning a menudo usan una métrica llamada puntuación F1, que es una “media armónica” de precisión y recuperación. (Una media armónica difiere del promedio más tradicional en que se ve afectada de manera desproporcionada por valores bajos. Por lo tanto, una puntuación F1 disminuye rápidamente si la precisión o la recuperación son bajas).
Una puntuación F1 perfecta sería 1.0, pero desafortunadamente no existe una guía única para lo que es una puntuación F1 suficientemente alta, y el contexto es muy importante.2 Lo que está claro es que una puntuación F1 más alta es mejor. Cuanto más cerca de 1.0, mejor puede este modelo detectar eficazmente lo que debe, al tiempo que minimiza los falsos positivos y los falsos negativos.3
Entre los indicadores de clasificación, hay dos que se refieren a los conceptos relacionados de confianza y umbrales.
Un modelo no simplemente dice “señal de alto” o “no señal de alto”. Más bien, dice algo como: “Hay un 98 % de posibilidades de que esta sea una señal de alto” (una predicción muy confiable). O dice: “Hay un 51 % de posibilidades de que esto sea una señal de alto” (una predicción poco segura).
La métrica conocida como pérdida de registros está diseñada para evaluar la confianza de un modelo. Los errores de alta confianza reciben una gran penalización. La baja confianza en torno a las predicciones correctas también se penaliza, aunque en menor grado. Un modelo perfecto obtendría una puntuación de 0 en la pérdida de registros, aunque eso rara vez se logra. Lo que constituye una puntuación “buena” nuevamente depende del modelo y tipo de tarea.
Cualquiera que sea la puntuación de confianza de un modelo, los usuarios humanos de los modelos de machine learning (ML) deben decidir en última instancia un umbral para convertir los presentimientos de un modelo en juicios finales de sí o no. Un umbral podría instituir la regla: “si tiene más del 75 % de confianza, entonces emita 'sí, una señal de alto'”. Pero un usuario humano podría elegir un umbral de confianza del 51 % o del 98 % en su lugar. Las salidas resultantes del modelo pueden, por supuesto, variar mucho dependiendo del umbral elegido.
Una curva ROC (siglas técnicas de “característica operativa del receptor”) y la métrica relacionada ROC AUC (o “área bajo la curva”) analizan el rendimiento del modelo en muchos umbrales diferentes. Técnicamente, una curva ROC traza la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) a medida que varía el umbral. Conceptualmente, ROC AUC deja de lado las decisiones de juicio en cualquier punto de corte en particular, en lugar de observar en general si un modelo es adecuado para clasificar: “Independientemente de dónde establezcamos el umbral, ¿el modelo al menos produce resultados más altos cuando las señales de alto están realmente ahí?”. ROC AUC resume esta capacidad general de separar los aspectos positivos de los negativos.
La sección anterior trata los problemas de “clasificación”, donde un fenómeno (ya sea una señal de alto o cáncer) está presente de forma evidente o no. Sin embargo, muchos fenómenos (el valor de las viviendas o los niveles de glucosa de un paciente) se dan en un espectro, lo que requiere diferentes modelos y diferentes medidas de rendimiento. Los modelos que abordan estos fenómenos generan números en lugar de categorías. Se denominan modelos de regresión y se evalúan con métricas de regresión, que preguntan de varias maneras: “¿Qué tan lejos está ese número?”.
El error absoluto medio (MAE) pregunta: “En promedio, ¿a qué distancia estábamos?”. Si un modelo esta semana cree que una casa se venderá por 500 000 USD y se vende por 525 000 USD, y la próxima semana cree que una casa se venderá por 400 000 USD y se vende por 390 000 USD, su MAE es de 17 500 USD (25 000 + 10 000, dividido por 2). El MAE ignora si un modelo está constantemente por encima o debajo en sus predicciones. Simplemente analiza la distancia promedio a la verdad.
El error cuadrático medio(RMSE) es similar, pero penaliza con mayor severidad los valores que se alejan mucho de lo esperado. Lo logra elevando al cuadrado los errores, lo que hace que los errores grandes sean aún mayores, antes de sacar la raíz cuadrada del promedio resultante. El RMSE en el ejemplo anterior es de 19 039 USD. (El MSE relacionado, o error cuadrático medio, funciona de manera similar, pero sin la raíz cuadrada, lo que lo hace menos interpretable, pero matemáticamente útil a veces). El RMSE es útil cuando los errores grandes son especialmente costosos.
Una métrica menos intuitiva es el R cuadrado. El R cuadrado no mide el grado de desviación de las predicciones de un modelo, sino la proporción de la variación total de la variable dependiente que el modelo logró explicar.
Para hacerse una idea de lo que es el R cuadrado, imagine primero un modelo simplificado de precios inmobiliarios que arroja el mismo valor para todas las viviendas: el precio promedio de la zona. El R cuadrado pregunta: ¿qué tan mejor es nuestro modelo que el adivinador promedio? Cuanto mejor capture el modelo la varianza de los precios reales, mayor será su R cuadrado. (Un R cuadrado de 0.85 significa que el modelo explica alrededor del 85 % de la variación en el resultado; un R cuadrado de 0 significa que no es mejor que el modelo de arrojar un promedio).
Como todas las métricas, el R cuadrado es imperfecto. Es especialmente débil con datos que contienen valores atípicos.
No todos los estudiantes que aprueban un examen realmente aprendieron el material. Es posible que hayan memorizado las fichas, pero no hayan interiorizado los conceptos. Podrían haber hecho trampa, de alguna manera viendo la prueba con anticipación. Podrían simplemente haber tenido suerte. Lo mismo ocurre con los modelos de machine learning.
Un error rudimentario en la evaluación de modelos de machine learning sería probar el modelo con los mismos datos utilizados para el entrenamiento del modelo. El modelo podría funcionar muy bien, pero solo porque esencialmente ha memorizado los datos. No ha logrado generalizar ningún aprendizaje sobre el fenómeno subyacente que debe detectar, y es probable que falle cuando encuentre nuevos datos en el mundo real. El término técnico para este comportamiento similar a la memorización es sobreajuste.
La salvaguarda habitual se denomina división de entrenamiento y prueba: una divide los datos disponibles en un conjunto del que el modelo puede aprender (datos de entrenamiento) y otra parte que no puede ver hasta el examen (el conjunto de prueba). Pero esta salvaguarda, también, puede dar resultados imperfectos, porque una división desafortunada puede sesgar los resultados de las pruebas del modelo. Además, si los datos son limitados, hay que elegir entre utilizarlos para el entrenamiento o reservarlos para la evaluación.
Los profesionales de ML abordan estos problemas con la validación cruzada. Con la validación cruzada, un conjunto de datos se divide en los llamados pliegues. La mayoría de los pliegues se utilizan para entrenar el modelo, mientras que uno se reserva para probarlo. Luego, el proceso se repite en una copia nueva del modelo, con los pliegues rotados; un pliegue diferente es ahora el conjunto de prueba. Se promedian las puntuaciones de las pruebas de estas diversas ejecuciones. Este enfoque proporciona una estimación más estable de qué tan bien es probable que funcione el modelo con nuevos datos, al tiempo que obtiene más kilometraje de un conjunto de datos limitado (porque cada punto de datos se puede usar para entrenar en un contexto y probar en otro).
En última instancia, si ninguno de los modelos candidatos funciona lo suficientemente bien, los profesionales podrían probar el ajuste de hiperparámetros, adaptando las configuraciones integradas, como la profundidad del modelo o la tasa de aprendizaje, para ver si el rendimiento mejora.
En Python, las bibliotecas como scikit-learn facilitan la implementación de la validación cruzada, que es una de las razones por las que se ha convertido en una práctica estándar.
A veces la llamada “verdad fundamental” es clara: el paciente tiene o no cáncer; la casa se vendió por tal o cual cantidad. Pero con la llegada de los modelos de lenguaje grandes (LLM), el rendimiento del modelo suele ser menos claro o fácil de medir.
Un chatbot impulsado por LLM podría enfrentar algunas tareas binarias, como si obtiene los datos correctos o incorrectos. Pero su usuario también puede evaluarlo en muchas dimensiones diferentes y difíciles de definir, como la amabilidad o la utilidad. En tales casos, no hay una única respuesta correcta, ni hay “valores verdaderos” con los que comparar contra un punto de referencia. La anotación humana se considera el estándar de referencia para evaluar los resultados de un LLM, pero es un método que no escala.
En última instancia, en estos casos, la evaluación final del modelo puede derivar de lanzar un modelo a la realidad y ver si los usuarios obtienen valor de él o no.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1. “Zillow iBuying Home Zestimates,”CNN, 2021.
2. “What is a good F1 score?” OneModel
3. “Calculating F1 Score,” Telnyx.com