La evaluación de modelos se refiere al proceso de medir el rendimiento de un modelo de machine learning. Este proceso plantea la siguiente pregunta: cuando su modelo emite un juicio sobre el mundo real, ¿con qué frecuencia acierta? O, en los casos que se sitúan en un espectro, ¿hasta qué punto se acercó a la respuesta correcta?
Cada vez más, el dinero real está en juego debido a la dependencia de las empresas en modelos de IA. En febrero de 2021, los líderes de Zillow hicieron una gran apuesta basada en sus modelos de machine learning que predecían el valor de las viviendas. No solo hacía estas estimaciones, sino que a menudo Zillow compraba las casas que su modelo valoraba, a través de un negocio relacionado llamado Zillow Offers.
Apenas ocho meses después, Zillow cerró Zillow Offers y se hizo cargo de una amortización de inventario por valor de 304 millones de dólares. La causa, según la empresa, fue la compra de muchas viviendas por precios superiores a los que creía poder venderlas. Las acciones de la empresa se hundieron y Zillow despidió a alrededor del 25 % de su personal.
¿La culpa? Su modelo de IA no era lo suficientemente preciso como para anticiparse a la evolución del mercado. Sus predicciones y previsiones no coincidían con el valor real de las viviendas1.
A medida que los modelos de ML se extienden a la sanidad, la contratación y la justicia penal, el coste de una mala evaluación puede causar un daño real a personas reales. En la ciencia de datos y los sectores, acertar con las métricas de evaluación de modelos se ha convertido en una parte importante de implementar la IA de forma responsable.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Los diferentes modelos están destinados a hacer cosas diferentes.
Los modelos de clasificación etiquetan los datos entrantes como pertenecientes a una de varias categorías. (Un modelo que marca a un paciente si tiene sepsis o no, es un modelo de clasificación).
Los modelos de regresión generan en cambio un número dentro de un intervalo continuo. (El modelo de precios de la vivienda de Zillow era un modelo de regresión.)
Los diferentes tipos de modelos requieren distintos tipos de pruebas. A menudo, la triangulación del rendimiento a través de varias métricas es ideal porque ninguna métrica está exenta de incertidumbres.
Algunos modelos abordan “problemas de clasificación”, lo que significa que dividen el mundo en categorías. Las métricas de clasificación son igualmente contundentes. La precisión del modelo es bastante intuitiva: toma el número de predicciones correctas y lo divide por el número total. (En machine learning, la palabra “predicción” se refiere a las conjeturas que hacen los modelos, incluso si la conjetura es sobre algo que sucede ahora, en lugar de en el futuro).
El problema con la precisión de los modelos es que una cifra elevada puede dar a los stakeholders una falsa sensación de seguridad. Un modelo destinado a detectar un evento raro pero catastrófico (por ejemplo, un determinado tipo de cáncer) podría clasificar reflexivamente cada escaneo como negativo. Obtendría una alta precisión del modelo, porque el 99,99 % de esas lecturas negativas serían correctas. Pero esta alta precisión sería un consuelo para el pobre paciente que recibió el raro falso negativo. El modelo era preciso en un sentido técnico, pero no hacía su trabajo.
Resulta útil dividir el rendimiento de un modelo de clasificación en los tipos de predicciones o conjeturas fundamentadas que hace. En una tarea de clasificación binaria, como la detección del cáncer, hay cuatro resultados posibles (cuando se organizan en una tabla de 2x2, este marco se denomina a menudo una “matriz de confusión”):
Ya se empieza a ver por qué merece la pena distinguir estas categorías. Un diagnóstico de cáncer falso positivo sin duda sería traumático, hasta que más pruebas revelaran que el episodio fue un problema médico. Pero una lectura falsa negativa puede ser fatal.
Los profesionales de la ciencia de datos han desarrollado una serie de submétricas para sondear el rendimiento de los clasificadores y evaluar las relaciones entre los cuadrantes de la matriz de confusión.
La métrica llamada precisión pregunta: de todas las predicciones positivas que hizo un clasificador, ¿cuántas fueron correctas?
Un algoritmo de reconocimiento de imágenes instalado en un vehículo recorre diez cruces en un circuito de pruebas, seis de los cuales cuentan con señales de stop. Sin embargo, decir que un modelo “captó las seis señales de stop” sería eludir posibles diferencias clave en la precisión. Si marcó los seis con precisión y no produjo falsos positivos, entonces tenía una precisión de 6/6, o 100 %. No obstante, si detectó esas seis señales pero también vio cuatro señales de stop que no existían, su precisión fue solo de 6/10, es decir, apenas un 60 %.
La métrica llamada recuperación (también conocida como “tasa de verdaderos positivos”) mide algo sutilmente diferente. Esta métrica pregunta, de todas las señales de alto que efectivamente estaban allí, ¿cuántas captó el modelo?
Imagine otro circuito de prueba con 100 intersecciones, 50 de las cuales tienen señales de stop. Un modelo que detecte 30 de estas señales de stop tendría una tasa de recuerdo del 60 %; 40 de ellas, del 80 %; y así sucesivamente. (La tasa de recuperación no tiene en cuenta las falsas alarmas, por lo que, en teoría, se podría “manipular” para alcanzar una tasa de recuperación del 100 % enseñando al modelo a detectar señales de stop por todas partes.)
Estas dos métricas, la precisión y la recuperación, existen en tensión. Un ingeniero que busque mejorar la memoria podría sobrepasarse y crear un modelo que con demasiada frecuencia dé falsos positivos. A menudo, ajustar un modelo equivale a gestionar compensaciones entre una mayor recuperación (captar todos los fenómenos que se busca detectar) y una menor precisión (pasar de la marca y detectar también falsos positivos).
Para gestionar esta compensación, los profesionales del machine learning suelen utilizar una métrica llamada puntuación F1, que es una “media armónica” de precisión y recuperación. (Una media armónica difiere del promedio más tradicional en que se ve afectada de manera desproporcionada por valores bajos. Por lo tanto, una puntuación F1 disminuye rápidamente si la precisión o la recuperación son bajas).
Una puntuación F1 perfecta sería 1,0, pero desafortunadamente no existe una guía única para lo que es una puntuación F1 suficientemente alta, y el contexto es muy importante2. Lo que está claro es que una puntuación más alta en F1 es mejor. Cuanto más se acerque a 1,0, mejor podrá este modelo detectar eficazmente lo que debe detectar, al tiempo que minimiza los falsos positivos y los falsos negativos3.
Dentro de las métricas de clasificación, dos métricas implican los conceptos relacionados de confianza y umbrales.
Un modelo no se limita a decir “señal de stop” o “no señal de stop”. Más bien, dice algo como: “Hay un 98 % de posibilidades de que se trate de una señal de stop” (una predicción muy segura). O bien dice: “Hay un 51 % de posibilidades de que esto sea una señal de stop” (una predicción poco fiable).
La métrica conocida como pérdida de registro está diseñada para evaluar la confianza de un modelo. Los errores con mucha confianza reciben una penalización importante. La baja confianza en torno a las predicciones correctas también se penaliza, aunque en menor medida. Un modelo perfecto obtendría una puntuación de 0 en pérdida logarítmica, aunque eso rara vez se consigue. Lo que constituye una buena puntuación depende, una vez más, de su modelo y del tipo de tarea.
Sea cual sea la puntuación de confianza de un modelo, los usuarios humanos de los modelos de ML deben decidir en última instancia un umbral para convertir las corazonadas de un modelo en juicios finales de sí o no. Un umbral podría instituir la regla, “si la confianza es superior al 75 %, entonces se muestra ‘sí, una señal de stop’“. Pero un usuario humano podría elegir un umbral de confianza del 51 % o del 98 % en su lugar. Por supuesto, los resultados del modelo pueden variar mucho en función del umbral elegido.
Una curva ROC (siglas técnicas de "característica operativa del receptor") y la métrica relacionada AUC de ROC (o "área bajo la curva") analizan el rendimiento del modelo en muchos umbrales diferentes. Técnicamente, una curva ROC traza la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) a medida que varía el umbral. Desde un punto de vista conceptual, el AUC de ROC deja de lado las decisiones subjetivas que se toman en un umbral concreto y, en su lugar, evalúa de manera global si un modelo es capaz de clasificar correctamente: “Independientemente de dónde fijemos el umbral, ¿el modelo genera, al menos de forma sistemática, puntuaciones de confianza más altas cuando realmente hay señales de stop?” AUC de ROC resume esta capacidad general de separar los aspectos positivos de los negativos.
La sección anterior trata los problemas de “clasificación”, en los que un fenómeno (ya sea una señal de alto o un cáncer) está claramente presente o no. Sin embargo, muchos fenómenos (el valor de las viviendas, los niveles de glucosa de un paciente) se dan en un amplio espectro, lo que requiere diferentes modelos y distintos indicadores de rendimiento. Los modelos que abordan estos fenómenos generan cifras en lugar de categorías. Se denominan modelos de regresión y se evalúan mediante métricas de regresión, que plantean de diversas formas la pregunta: “¿En qué medida se aleja ese valor de la realidad?”
El error absoluto medio (MAE) pregunta: "De media, ¿a qué distancia estábamos?" Si un modelo esta semana cree que una casa se venderá por 500 000 USD y se vende por 525 000 USD, y la semana que viene cree que una casa se venderá por 400 000 USD y se vende por 390 000 USD, su MAE es de 17 500 USD (25 000 + 10 000, dividido por 2). El MAE ignora si un modelo está constantemente por encima o por debajo de sus predicciones. Solo analiza la distancia media con respecto a la verdad.
El error cuadrático medio (RMSE) es similar, pero asigna una penalización más dura a las cifras que se alejaron mucho de la realidad. Lo logra elevando al cuadrado los errores (lo que hace que los errores graves sean aún mayores) antes de tomar la raíz cuadrada de la media resultante. El RMSE en el ejemplo anterior es de 19 039 USD. (El MSE relacionado, o error cuadrático medio, funciona de manera similar pero sin la raíz cuadrada, lo que lo hace menos interpretable pero matemáticamente útil a veces). El RMSE es útil cuando los errores grandes son especialmente costosos.
Una métrica menos intuitiva es el R cuadrado. El R cuadrado no mide lo lejos que estaban las predicciones de un modelo, sino la cantidad de variación general de la variable objetivo que el modelo logró explicar.
Para que se haga una idea del R cuadrado, imagine primero un modelo simplista de precios de viviendas que le da el mismo valor para cada vivienda: el precio medio de la zona. El R cuadrado nos pregunta: ¿En qué medida es nuestro modelo mejor que alguien que se limitara a adivinar? Cuanto mejor capte el modelo la varianza de los precios reales, mayor será su R cuadrado. (Un R cuadrado de 0,85 significa que el modelo explica alrededor del 85 % de la variación en el resultado; un R cuadrado de 0 significa que no es mejor que el modelo de arrojar promedio).
Como todas las métricas, R cuadrado es imperfecto. Es especialmente débil con datos que contienen valores atípicos.
No todos los estudiantes que aprueban un examen han aprendido realmente el contenido. Es posible que el alumno se haya aprendido de memoria las fichas, pero no haya interiorizado los conceptos. El estudiante puede haber hecho trampa, ver de alguna manera el examen con antelación, o puede que simplemente haya tenido suerte. Lo mismo ocurre con los modelos de machine learning.
Un error rudimentario al evaluar los modelos de machine learning sería probar el modelo con los mismos datos utilizados para el entrenamiento del modelo. El modelo puede funcionar muy bien, pero simplemente porque esencialmente ha memorizado los datos. No ha logrado generalizar ningún conocimiento sobre el fenómeno subyacente que se supone que debe detectar, y es probable que falle cuando se enfrente a nuevos datos en el mundo real. El término técnico para este comportamiento similar a la memorización es sobreajuste.
La medida de seguridad habitual se denomina división entre entrenamiento y prueba: se dividen los datos disponibles en un conjunto a partir del cual el modelo puede aprender (datos de entrenamiento) y otra parte que no puede ver hasta el momento de la prueba (el conjunto de prueba). Pero esta media de seguridad también puede dar resultados imperfectos, porque una división desafortunada puede sesgar los resultados de las pruebas del modelo. Además, si los datos son limitados, existe una dolorosa disyuntiva entre utilizar los datos para el entrenamiento o conservarlos para las pruebas.
Los profesionales del ML abordan estos problemas con la validación cruzada. Con la validación cruzada, un conjunto de datos se divide en los llamados pliegues. La mayoría de los pliegues se utilizan para entrenar el modelo, mientras que se reserva uno para probarlo. A continuación, el proceso se repite en una nueva copia del modelo, con los pliegues rotados; ahora, un pliegue diferente constituye el conjunto de prueba. Se hace una media de las puntuaciones de las pruebas realizadas en cada una de estas series. Este enfoque proporciona una estimación más estable de la probabilidad de que el modelo funcione con nuevos datos, al tiempo que se obtiene un mayor rendimiento de un conjunto de datos limitado (porque cada punto de datos puede utilizarse para el entrenamiento en un contexto y para las pruebas en otro).
En última instancia, si ninguno de los modelos candidatos ofrece un rendimiento satisfactorio, los profesionales pueden intentar ajustar los hiperparámetros, modificando ajustes predeterminados como la profundidad del modelo o la tasa de aprendizaje, para comprobar si mejora el rendimiento.
En Python, bibliotecas como scikit-learn facilitan la implementación de la validación cruzada, que es una de las razones por las que se ha convertido en una práctica estándar.
A veces, la llamada “verdad fundamental” es inequívoca: el paciente tiene cáncer o no lo tiene; la casa se vendió por tal o cual cantidad. Pero con la llegada de los modelos de lenguaje de gran tamaño (LLM), el rendimiento de los modelos es a menudo menos claro o fácil de medir.
Un chatbot impulsado por LLM puede enfrentarse a algunas tareas binarias, como si obtiene datos correctos o incorrectos. Pero su usuario también puede evaluarlo en función de muchas dimensiones diferentes y difíciles de definir, como la amabilidad o la utilidad. En tales casos, no hay una única respuesta correcta, ni “valores verdaderos” con los que comparar. La anotación humana se considera el estándar de oro para evaluar salidas de LLM, pero es un método que no escala.
En última instancia, en estos casos, la evaluación final del modelo puede derivar de lanzar un modelo a la realidad y ver si los usuarios obtienen valor de él o no.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1. “Zillow iBuying Home Zestimates”.CNN. 2021.
2. “What is a good F1 score?”. OneModel.
3. “Calculating F1 Score”. Telnyx.com.