Vista aérea de manzanas moviéndose a través de una instalación de procesado, con una mano sujetando una sola manzana en primer plano

¿Qué es la evaluación de modelos?

By David Zax

Publicado el 10 de marzo de 2026

Definición de evaluación de modelos

La evaluación de modelos se refiere al proceso de medir el rendimiento de un modelo de machine learning. Este proceso plantea la siguiente pregunta: cuando su modelo emite un juicio sobre el mundo real, ¿con qué frecuencia acierta? O, en los casos que se sitúan en un espectro, ¿hasta qué punto se acercó a la respuesta correcta?

El coste de equivocarse

Cada vez más, el dinero real está en juego debido a la dependencia de las empresas en modelos de IA. En febrero de 2021, los líderes de Zillow hicieron una gran apuesta basada en sus modelos de machine learning que predecían el valor de las viviendas. No solo hacía estas estimaciones, sino que a menudo Zillow compraba las casas que su modelo valoraba, a través de un negocio relacionado llamado Zillow Offers.

Apenas ocho meses después, Zillow cerró Zillow Offers y se hizo cargo de una amortización de inventario por valor de 304 millones de dólares. La causa, según la empresa, fue la compra de muchas viviendas por precios superiores a los que creía poder venderlas. Las acciones de la empresa se hundieron y Zillow despidió a alrededor del 25 % de su personal.

¿La culpa? Su modelo de IA no era lo suficientemente preciso como para anticiparse a la evolución del mercado. Sus predicciones y previsiones no coincidían con el valor real de las viviendas¹.

A medida que los modelos de ML se extienden a la sanidad, la contratación y la justicia penal, el coste de una mala evaluación puede causar un daño real a personas reales. En la ciencia de datos y los sectores, acertar con las métricas de evaluación de modelos se ha convertido en una parte importante de implementar la IA de forma responsable.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Tipos de modelos y métricas

Los diferentes modelos están destinados a hacer cosas diferentes.

Los modelos de clasificación etiquetan los datos entrantes como pertenecientes a una de varias categorías. (Un modelo que marca a un paciente si tiene sepsis o no, es un modelo de clasificación).

Los modelos de regresión generan en cambio un número dentro de un intervalo continuo. (El modelo de precios de la vivienda de Zillow era un modelo de regresión.)

Los diferentes tipos de modelos requieren distintos tipos de pruebas. A menudo, la triangulación del rendimiento a través de varias métricas es ideal porque ninguna métrica está exenta de incertidumbres.

Modelos de clasificación y métricas de clasificación

Algunos modelos abordan “problemas de clasificación”, lo que significa que dividen el mundo en categorías. Las métricas de clasificación son igualmente contundentes. La precisión del modelo es bastante intuitiva: toma el número de predicciones correctas y lo divide por el número total. (En machine learning, la palabra “predicción” se refiere a las conjeturas que hacen los modelos, incluso si la conjetura es sobre algo que sucede ahora, en lugar de en el futuro).

El problema con la precisión de los modelos es que una cifra elevada puede dar a los stakeholders una falsa sensación de seguridad. Un modelo destinado a detectar un evento raro pero catastrófico (por ejemplo, un determinado tipo de cáncer) podría clasificar reflexivamente cada escaneo como negativo. Obtendría una alta precisión del modelo, porque el 99,99 % de esas lecturas negativas serían correctas. Pero esta alta precisión sería un consuelo para el pobre paciente que recibió el raro falso negativo. El modelo era preciso en un sentido técnico, pero no hacía su trabajo.

Resulta útil dividir el rendimiento de un modelo de clasificación en los tipos de predicciones o conjeturas fundamentadas que hace. En una tarea de clasificación binaria, como la detección del cáncer, hay cuatro resultados posibles (cuando se organizan en una tabla de 2x2, este marco se denomina a menudo una “matriz de confusión”):

Verdaderos positivos (se detectó el cáncer con precisión)
Verdaderos negativos (se descartó el cáncer con precisión)
Falsos positivos (se detectó el cáncer, pero el resultado fue erróneo)
Falsos negativos (no se detectó el cáncer, y esto fue un error)

Ya se empieza a ver por qué merece la pena distinguir estas categorías. Un diagnóstico de cáncer falso positivo sin duda sería traumático, hasta que más pruebas revelaran que el episodio fue un problema médico. Pero una lectura falsa negativa puede ser fatal.

Los profesionales de la ciencia de datos han desarrollado una serie de submétricas para sondear el rendimiento de los clasificadores y evaluar las relaciones entre los cuadrantes de la matriz de confusión.

La métrica llamada precisión pregunta: de todas las predicciones positivas que hizo un clasificador, ¿cuántas fueron correctas?

Un algoritmo de reconocimiento de imágenes instalado en un vehículo recorre diez cruces en un circuito de pruebas, seis de los cuales cuentan con señales de stop. Sin embargo, decir que un modelo “captó las seis señales de stop” sería eludir posibles diferencias clave en la precisión. Si marcó los seis con precisión y no produjo falsos positivos, entonces tenía una precisión de 6/6, o 100 %. No obstante, si detectó esas seis señales pero también vio cuatro señales de stop que no existían, su precisión fue solo de 6/10, es decir, apenas un 60 %.

La métrica llamada recuperación (también conocida como “tasa de verdaderos positivos”) mide algo sutilmente diferente. Esta métrica pregunta, de todas las señales de alto que efectivamente estaban allí, ¿cuántas captó el modelo?

Imagine otro circuito de prueba con 100 intersecciones, 50 de las cuales tienen señales de stop. Un modelo que detecte 30 de estas señales de stop tendría una tasa de recuerdo del 60 %; 40 de ellas, del 80 %; y así sucesivamente. (La tasa de recuperación no tiene en cuenta las falsas alarmas, por lo que, en teoría, se podría “manipular” para alcanzar una tasa de recuperación del 100 % enseñando al modelo a detectar señales de stop por todas partes.)

Estas dos métricas, la precisión y la recuperación, existen en tensión. Un ingeniero que busque mejorar la memoria podría sobrepasarse y crear un modelo que con demasiada frecuencia dé falsos positivos. A menudo, ajustar un modelo equivale a gestionar compensaciones entre una mayor recuperación (captar todos los fenómenos que se busca detectar) y una menor precisión (pasar de la marca y detectar también falsos positivos).

Para gestionar esta compensación, los profesionales del machine learning suelen utilizar una métrica llamada puntuación F1, que es una “media armónica” de precisión y recuperación. (Una media armónica difiere del promedio más tradicional en que se ve afectada de manera desproporcionada por valores bajos. Por lo tanto, una puntuación F1 disminuye rápidamente si la precisión o la recuperación son bajas).

Una puntuación F1 perfecta sería 1,0, pero desafortunadamente no existe una guía única para lo que es una puntuación F1 suficientemente alta, y el contexto es muy importante². Lo que está claro es que una puntuación más alta en F1 es mejor. Cuanto más se acerque a 1,0, mejor podrá este modelo detectar eficazmente lo que debe detectar, al tiempo que minimiza los falsos positivos y los falsos negativos³.

Métricas de clasificación relacionadas con la confianza y los umbrales

Dentro de las métricas de clasificación, dos métricas implican los conceptos relacionados de confianza y umbrales.

Un modelo no se limita a decir “señal de stop” o “no señal de stop”. Más bien, dice algo como: “Hay un 98 % de posibilidades de que se trate de una señal de stop” (una predicción muy segura). O bien dice: “Hay un 51 % de posibilidades de que esto sea una señal de stop” (una predicción poco fiable).

La métrica conocida como pérdida de registro está diseñada para evaluar la confianza de un modelo. Los errores con mucha confianza reciben una penalización importante. La baja confianza en torno a las predicciones correctas también se penaliza, aunque en menor medida. Un modelo perfecto obtendría una puntuación de 0 en pérdida logarítmica, aunque eso rara vez se consigue. Lo que constituye una buena puntuación depende, una vez más, de su modelo y del tipo de tarea.

Sea cual sea la puntuación de confianza de un modelo, los usuarios humanos de los modelos de ML deben decidir en última instancia un umbral para convertir las corazonadas de un modelo en juicios finales de sí o no. Un umbral podría instituir la regla, “si la confianza es superior al 75 %, entonces se muestra ‘sí, una señal de stop’“. Pero un usuario humano podría elegir un umbral de confianza del 51 % o del 98 % en su lugar. Por supuesto, los resultados del modelo pueden variar mucho en función del umbral elegido.

Una curva ROC (siglas técnicas de "característica operativa del receptor") y la métrica relacionada AUC de ROC (o "área bajo la curva") analizan el rendimiento del modelo en muchos umbrales diferentes. Técnicamente, una curva ROC traza la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) a medida que varía el umbral. Desde un punto de vista conceptual, el AUC de ROC deja de lado las decisiones subjetivas que se toman en un umbral concreto y, en su lugar, evalúa de manera global si un modelo es capaz de clasificar correctamente: “Independientemente de dónde fijemos el umbral, ¿el modelo genera, al menos de forma sistemática, puntuaciones de confianza más altas cuando realmente hay señales de stop?” AUC de ROC resume esta capacidad general de separar los aspectos positivos de los negativos.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables capaces de desbloquear nuevos ingresos, reducir costes y aumentar la productividad, y utilice nuestra guía para profundizar más en el tema.

Ir al episodio

Modelos de regresión y métricas de regresión

La sección anterior trata los problemas de “clasificación”, en los que un fenómeno (ya sea una señal de alto o un cáncer) está claramente presente o no. Sin embargo, muchos fenómenos (el valor de las viviendas, los niveles de glucosa de un paciente) se dan en un amplio espectro, lo que requiere diferentes modelos y distintos indicadores de rendimiento. Los modelos que abordan estos fenómenos generan cifras en lugar de categorías. Se denominan modelos de regresión y se evalúan mediante métricas de regresión, que plantean de diversas formas la pregunta: “¿En qué medida se aleja ese valor de la realidad?”

El error absoluto medio (MAE) pregunta: "De media, ¿a qué distancia estábamos?" Si un modelo esta semana cree que una casa se venderá por 500 000 USD y se vende por 525 000 USD, y la semana que viene cree que una casa se venderá por 400 000 USD y se vende por 390 000 USD, su MAE es de 17 500 USD (25 000 + 10 000, dividido por 2). El MAE ignora si un modelo está constantemente por encima o por debajo de sus predicciones. Solo analiza la distancia media con respecto a la verdad.

El error cuadrático medio (RMSE) es similar, pero asigna una penalización más dura a las cifras que se alejaron mucho de la realidad. Lo logra elevando al cuadrado los errores (lo que hace que los errores graves sean aún mayores) antes de tomar la raíz cuadrada de la media resultante. El RMSE en el ejemplo anterior es de 19 039 USD. (El MSE relacionado, o error cuadrático medio, funciona de manera similar pero sin la raíz cuadrada, lo que lo hace menos interpretable pero matemáticamente útil a veces). El RMSE es útil cuando los errores grandes son especialmente costosos.

Una métrica menos intuitiva es el R cuadrado. El R cuadrado no mide lo lejos que estaban las predicciones de un modelo, sino la cantidad de variación general de la variable objetivo que el modelo logró explicar.

Para que se haga una idea del R cuadrado, imagine primero un modelo simplista de precios de viviendas que le da el mismo valor para cada vivienda: el precio medio de la zona. El R cuadrado nos pregunta: ¿En qué medida es nuestro modelo mejor que alguien que se limitara a adivinar? Cuanto mejor capte el modelo la varianza de los precios reales, mayor será su R cuadrado. (Un R cuadrado de 0,85 significa que el modelo explica alrededor del 85 % de la variación en el resultado; un R cuadrado de 0 significa que no es mejor que el modelo de arrojar promedio).

Como todas las métricas, R cuadrado es imperfecto. Es especialmente débil con datos que contienen valores atípicos.

Desafíos y problemas en la evaluación de modelos

No todos los estudiantes que aprueban un examen han aprendido realmente el contenido. Es posible que el alumno se haya aprendido de memoria las fichas, pero no haya interiorizado los conceptos. El estudiante puede haber hecho trampa, ver de alguna manera el examen con antelación, o puede que simplemente haya tenido suerte. Lo mismo ocurre con los modelos de machine learning.

Cuando los datos son limitados

Un error rudimentario al evaluar los modelos de machine learning sería probar el modelo con los mismos datos utilizados para el entrenamiento del modelo. El modelo puede funcionar muy bien, pero simplemente porque esencialmente ha memorizado los datos. No ha logrado generalizar ningún conocimiento sobre el fenómeno subyacente que se supone que debe detectar, y es probable que falle cuando se enfrente a nuevos datos en el mundo real. El término técnico para este comportamiento similar a la memorización es sobreajuste.

La medida de seguridad habitual se denomina división entre entrenamiento y prueba: se dividen los datos disponibles en un conjunto a partir del cual el modelo puede aprender (datos de entrenamiento) y otra parte que no puede ver hasta el momento de la prueba (el conjunto de prueba). Pero esta media de seguridad también puede dar resultados imperfectos, porque una división desafortunada puede sesgar los resultados de las pruebas del modelo. Además, si los datos son limitados, existe una dolorosa disyuntiva entre utilizar los datos para el entrenamiento o conservarlos para las pruebas.

Los profesionales del ML abordan estos problemas con la validación cruzada. Con la validación cruzada, un conjunto de datos se divide en los llamados pliegues. La mayoría de los pliegues se utilizan para entrenar el modelo, mientras que se reserva uno para probarlo. A continuación, el proceso se repite en una nueva copia del modelo, con los pliegues rotados; ahora, un pliegue diferente constituye el conjunto de prueba. Se hace una media de las puntuaciones de las pruebas realizadas en cada una de estas series. Este enfoque proporciona una estimación más estable de la probabilidad de que el modelo funcione con nuevos datos, al tiempo que se obtiene un mayor rendimiento de un conjunto de datos limitado (porque cada punto de datos puede utilizarse para el entrenamiento en un contexto y para las pruebas en otro).

En última instancia, si ninguno de los modelos candidatos ofrece un rendimiento satisfactorio, los profesionales pueden intentar ajustar los hiperparámetros, modificando ajustes predeterminados como la profundidad del modelo o la tasa de aprendizaje, para comprobar si mejora el rendimiento.

En Python, bibliotecas como scikit-learn facilitan la implementación de la validación cruzada, que es una de las razones por las que se ha convertido en una práctica estándar.

Cuando la “respuesta correcta” no está clara

A veces, la llamada “verdad fundamental” es inequívoca: el paciente tiene cáncer o no lo tiene; la casa se vendió por tal o cual cantidad. Pero con la llegada de los modelos de lenguaje de gran tamaño (LLM), el rendimiento de los modelos es a menudo menos claro o fácil de medir.

Un chatbot impulsado por LLM puede enfrentarse a algunas tareas binarias, como si obtiene datos correctos o incorrectos. Pero su usuario también puede evaluarlo en función de muchas dimensiones diferentes y difíciles de definir, como la amabilidad o la utilidad. En tales casos, no hay una única respuesta correcta, ni “valores verdaderos” con los que comparar. La anotación humana se considera el estándar de oro para evaluar salidas de LLM, pero es un método que no escala.

En última instancia, en estos casos, la evaluación final del modelo puede derivar de lanzar un modelo a la realidad y ver si los usuarios obtienen valor de él o no.

Autor

David Zax

Staff Writer

IBM Think

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto en la preparación de conjuntos de datos y el empleo de modelos fundacionales.

Recursos

Un robot de dibujos animados con casco de seguridad saluda con la mano junto a un ordenador portátil, con símbolos de código y elementos de IU en azul.

Le presentamos a Bob, su partner para el desarrollo de IA

Una herramienta con IA que le ayuda a programar, depurar y entregar software de alta calidad sin interrumpir su flujo de trabajo.

Patrón abstracto de flechas curvas y líneas de puntos en azul y morado, formando trayectorias direccionales fluidas.

Comience a obtener ROI: una guía práctica para la IA agéntica

Aprenda a escalar la IA agéntica para obtener un ROI medible en toda su empresa. Esta guía de estrategias describe los principales obstáculos que limitan el impacto, cómo medir eficazmente el ROI y un marco práctico para impulsar una adopción exitosa en toda la empresa.

Composición abstracta con flechas de chevron en azul, un diagrama de red negro de formas conectadas y planos geométricos en verde superpuestos.

Explore IBM Granite

Descubra IBM® Granite, nuestra familia de modelos de IA abiertos, de alto rendimiento y fiables, diseñados para la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.

Ilustración plana de edificios modernos con ventanas redondeadas, plantas y nubes en tonos verdes y azules.

Comunidad de IA de IBM

Únase a la comunidad de arquitectos y creadores de IA para aprender, compartir ideas y conectar con otros.

Forma abstracta en 3D azul en capas flotando dentro de un marco cuadrado inclinado sobre un fondo azul degradado.

IBM® watsonx Developer Hub

Respalde su próximo proyecto con algunas de nuestras capacidades más utilizadas. Empiece y aprenda más sobre los modelos compatibles que ofrece IBM.

Explicación de los modelos de lenguaje de gran tamaño

Techsplainers de IBM desglosa los aspectos esenciales de los LLM, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos de forma rápida.

Soluciones relacionadas

IBM Bob

Acelere la entrega de software con Bob, su socio de IA para un desarrollo seguro y consciente de la intención.

Explore IBM® Bob

IBM® watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Explore watsonx Orchestrate

Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA

Dé el siguiente paso

Independientemente de en qué fase del ciclo de desarrollo se encuentre, Bob le ofrece lo que necesita: revisiones basadas en la intención, alineadas con la seguridad y con capacidad agéntica que aceleran la entrega de software de alta calidad.

Notas a pie de página

1. “Zillow iBuying Home Zestimates”.CNN. 2021.

2. “What is a good F1 score?”. OneModel.

3. “Calculating F1 Score”. Telnyx.com.