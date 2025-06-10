¿Qué es la cuantificación de la incertidumbre en machine learning?

Joshua Noble

Data Scientist

¿Qué es la cuantificación de la incertidumbre?

El estadístico George Box escribió: "Todos los modelos son incorrectos, pero algunos son útiles".1 Los modelos, ya sean cualitativos, de inteligencia artificial, matemáticos dinámicos o estadísticos, siempre están a la altura de las complejidades de la realidad.

Existen múltiples tipos de incertidumbre que afectan a modelos de todo tipo. Las fuentes de incertidumbre incluyen procesos aleatorios o características estocásticas en un sistema (denominada incertidumbre aleatoria), conocimiento incompleto (denominado incertidumbre epistémica) o limitaciones computacionales.

La incertidumbre del modelo nos ayuda a estimar no solo la precisión de un modelo a lo largo del tiempo, sino que también puede ayudar a mostrar el rango de resultados posibles. También ayuda a comprender cómo reducir la incertidumbre tanto en la medición como en los modelos.

La incertidumbre y la precisión son conceptos diferentes que están estrechamente relacionados entre sí. La exactitud de una predicción es su aproximación a un valor conocido. La incertidumbre es cuánto pueden variar las predicciones y los valores objetivo.

Un sistema de visión artificial que clasifica solo imágenes de manzanas en rojo o verde tiene mucha menos incertidumbre inherente que un sistema que clasifica fotos de todo tipo de frutas conocidas en el mundo. La cuantificación de la incertidumbre (UQ) es una forma de medir exactamente cuánto más inciertos son esos dos problemas entre sí.

Cuando un modelo contiene incertidumbres, sus outputs pueden variar con diferentes probabilidades. Tratamos estos outputs como variables aleatorias y utilizamos distribuciones de probabilidad para medir la incertidumbre. Cuanto más amplia sea la distribución, más incierto será el resultado. Aunque la varianza funciona bien para las distribuciones gaussianas, muchos sistemas del mundo real crean distribuciones no estándar que requieren diferentes enfoques de medición.

Los métodos de cuantificación de la incertidumbre le ayudan a determinar la confianza que debe tener en una predicción concreta. Puede ser una predicción realizada por una técnica estadística como una prueba de distribuciones o puede ser una predicción o inferencia realizada por un algoritmo de machine learning. La UQ también nos ayuda a comprender el rango de posibles resultados de los modelos.

Por ejemplo, si un modelo meteorológico predice un 70 % de probabilidad de lluvia, la UQ ayuda a determinar si ese 70 % se basa en datos de entrenamiento sólidos o si hay tanta incertidumbre que la probabilidad real podría oscilar entre el 50 % y el 90 %.

Los métodos UQ son importantes porque muestran cómo los errores y las incógnitas afectan a los resultados finales. Esto evita que los modelos se vuelvan demasiado confiados y ayuda a centrarse en cómo mejorar la precisión de un modelo de machine learning.

El cálculo de la incertidumbre permite identificar cuáles son las más importantes y contribuye a optimizar el entrenamiento de los modelos. La incertidumbre también ayuda a los responsables a comprender la fiabilidad de las predicciones. La incertidumbre permite transformar una afirmación como "este modelo podría ser erróneo" en información específica y cuantificable sobre el grado y la naturaleza del posible error. Esto resulta muy valioso en campos como la medicina, la ingeniería intolerante a los fallos y otros escenarios en los que la fiabilidad es primordial.

Métodos para la UQ

La incertidumbre se presenta en dos tipos principales: incertidumbre basada en datos e incertidumbre impulsada por modelos. En cualquier caso, puede ser útil saber cuán fiable es una predicción tanto antes como después de que se haga.

Se puede considerar como un modelo que predice cuántas veces se puede abrir y cerrar una bisagra de puerta antes de que falle, con una precisión aproximada de más o menos 1000 operaciones. También puede mostrar la probabilidad de que esta vez al cerrar la bisagra de la puerta se rompa.

Métodos basados en el muestreo

Los enfoques basados en el muestreo son algunas de las técnicas más utilizadas para la cuantificación de la incertidumbre, ya que pueden manejar cualquier tipo de complejidad del modelo y proporcionan una caracterización de la incertidumbre intuitiva y completa. Al generar muchos escenarios posibles, el muestreo puede construir una imagen estadística de qué resultados son probables y cuán inciertas son nuestras predicciones cuando se aplican a datos del mundo real. En lugar de calcular la incertidumbre analíticamente, estos métodos utilizan el análisis estadístico de muchos outputs para caracterizar las distribuciones de incertidumbre.

La simulación Monte Carlo es uno de los enfoques más comunes. Esto ejecuta miles de simulaciones de modelos con entradas variadas aleatoriamente para ver el rango de posibles outputs. Son especialmente comunes con los modelos paramétricos en los que se comparan los intervalos de confianza y los outputs de los diferentes modelos para ver el rango de todos los valores posibles.

Una variante de la simulación de Monte Carlo denominada muestreo de hipercubo latino es una versión más eficiente que requiere menos ejecuciones y, al mismo tiempo, cubre bien el espacio de entrada.

El abandono Monte Carlo es otra técnica que mantiene el abandono activo durante la predicción, ejecutando múltiples pasadas hacia adelante para obtener una distribución de outputs.2 El abandono se utiliza principalmente como técnica de regularización, un método empleado para afinar los modelos de machine learning. Su objetivo es optimizar la función de pérdida ajustada evitando los problemas de sobreajuste o infraajuste.

El abandono Monte Carlo aplica el abandono en el momento de la prueba y ejecuta múltiples pases hacia adelante con diferentes máscaras de abandono. Esto hace que el modelo produzca una distribución de predicciones en lugar de una estimación puntual única. La distribución proporciona conocimiento sobre la incertidumbre del modelo sobre las predicciones. Es una técnica computacionalmente eficiente para conseguir que las redes neuronales generen distribuciones sin necesidad de entrenarlas varias veces.

Cuando ejecutar el modelo real muchas veces es demasiado caro, los estadísticos crean modelos "sustitutos" simplificados utilizando técnicas como la regresión de procesos gaussianos (GPR).5 La GPR es un enfoque bayesiano para modelar la certeza en las predicciones que lo convierte en una herramienta valiosa para la optimización, la previsión de series temporales y otras aplicaciones. La GPR se basa en el concepto de "proceso gaussiano", que es una colección de variables aleatorias que tienen una distribución gaussiana conjunta.

Se puede considerar un proceso gaussiano como una distribución de funciones. La GPR coloca una distribución previa sobre las funciones y luego utiliza los datos observados para crear una distribución posterior. El uso de la GPR para calcular la incertidumbre no requiere entrenamiento adicional ni ejecuciones de modelos porque la salida expresa inherentemente qué tan cierto o incierto es el modelo sobre la estimación a través de la distribución. Bibliotecas como Scikit-learn proporcionan implementaciones de GPR para el análisis de incertidumbre.

La elección del método de muestreo depende de las características más importantes para su modelo y escenario. La mayoría de las aplicaciones del mundo real combinan múltiples enfoques.

Métodos bayesianos

La estadística bayesiana es un enfoque de la inferencia estadística que utiliza el teorema de Bayes para combinar creencias previas con datos observados y actualizar la probabilidad de una hipótesis. Las estadísticas bayesianas se ocupan explícitamente de la incertidumbre asignando una distribución de probabilidad en lugar de un único valor fijo. En lugar de dar una única estimación "mejor" para un parámetro del modelo, los métodos bayesianos proporcionan una distribución de la probabilidad de las posibles estimaciones.

La inferencia bayesiana actualiza las predicciones a medida que se dispone de nuevos datos, lo que naturalmente incorpora incertidumbre en todo el proceso de estimación de covariables. Los métodos de Monte Carlo de la cadena de Markov (MCMC) ayudan a implementar enfoques bayesianos cuando las soluciones matemáticas son complejas. El enfoque MCMC toma muestras de distribuciones de probabilidad complejas y de alta dimensión que no se pueden muestrear directamente, en particular las distribuciones posteriores en la inferencia bayesiana.

Las redes neuronales bayesianas (BNN) son una desviación de las redes neuronales tradicionales que tratan los pesos de la red como distribuciones de probabilidad en lugar de estimaciones de punto fijo. Este enfoque probabilístico permite una cuantificación de la incertidumbre rigurosa y basada en principios. En lugar de estimaciones de un solo punto para las ponderaciones, estas mantienen distribuciones de probabilidad sobre todos los parámetros de la red. Las predicciones suelen incluir

  • estimaciones de media y varianza para la distribución predictiva
  • muestras de la distribución predictiva
  • intervalos creíbles derivados de la distribución

Existen varias bibliotecas de código abierto populares para implementar BNN como PyMC y Tensorflow-Probability.

Métodos de conjunto

La idea central detrás de la cuantificación de la incertidumbre basada en conjuntos es que si varios modelos entrenados de forma independiente no están de acuerdo en una predicción, este desacuerdo indica incertidumbre sobre la respuesta correcta.4 Por el contrario, cuando todos los modelos del conjunto coinciden, esto sugiere una mayor confianza en la predicción. Esta intuición se traduce en medidas concretas de incertidumbre a través de la varianza o dispersión de las predicciones del conjunto.

Si f₁, f₂, ..., fₙ representan los estimadores de N miembros del conjunto para la entrada x, la incertidumbre se puede cuantificar como

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

donde f̄(x) es la media del conjunto. Entrenar múltiples modelos diversos (diferentes arquitecturas, subconjuntos de datos de entrenamiento o inicialización) y combinar sus predicciones. El principal inconveniente de este enfoque es el coste computacional: requiere entrenar y ejecutar múltiples modelos.

Predicción conforme

 

La predicción conforme es una técnica para la cuantificación de la incertidumbre. Proporciona un marco independiente del modelo y sin distribución para crear intervalos de predicción (para escenarios de regresión) o conjuntos de predicción (para aplicaciones de clasificación).3 Esto proporciona garantías de cobertura válidas con suposiciones mínimas sobre el modelo o los datos. Esto hace que la predicción conforme sea especialmente útil cuando se trabaja con modelos preentrenados de caja negra.

La predicción conforme tiene varias características que la hacen ampliamente aplicable. Por ejemplo, solo requiere que los puntos de datos sean intercambiables, en lugar de exigir que sean independientes y estén distribuidos de forma idéntica. La predicción conforme también se puede aplicar a cualquier modelo predictivo y le permite establecer la incertidumbre predictiva permisible de un modelo.

Por ejemplo, en una tarea de regresión, es posible que desee lograr una cobertura del 95 %, lo que significaría que el modelo debería generar un rango en el que lo verdadero caiga dentro del intervalo de output el 95 % de las veces. Este enfoque es independiente del modelo y funciona bien con la clasificación, la regresión lineal, las redes neuronales y una amplia variedad de modelos de series temporales.

Para utilizar la predicción conforme, divida sus datos en tres conjuntos: un conjunto de entrenamiento, un conjunto de pruebas de referencia y un conjunto de calibración. El conjunto de calibración se utiliza para calcular las puntuaciones de no conformidad, a menudo denotadas como si. Esta puntuación mide lo inusual que es una predicción. Dada una nueva entrada, forme un intervalo de predicción basado en estas puntuaciones para garantizar la cobertura.

En una tarea de clasificación, la puntuación de no conformidad de la predicción conforme es una medida de cuánto se desvía una nueva instancia de las instancias existentes en el conjunto de entrenamiento. Esto determina si una nueva instancia pertenece a una clase en particular o no. Para la clasificación multiclase, esto suele ser 1: la probabilidad de clase prevista para la etiqueta concreta.

 si=1-f(xi)[yi]

Por lo tanto, si la probabilidad prevista de que una nueva instancia pertenezca a una determinada clase es alta, la puntuación de no conformidad es baja, y viceversa. Un enfoque habitual consiste en calcular las puntuaciones si para cada instancia del conjunto de calibración y ordenarlas de menor (seguro) a mayor (incierto).

Para llegar al 95 % de cobertura conforme, calcule el umbral q donde el 95 % de las puntuaciones si son inferiores. Para los nuevos ejemplos de prueba, incluya una etiqueta en el conjunto de predicción si su si es inferior al umbral q.

Si necesitara una garantía de que su modelo tuviera una cobertura conforme del 95 %, obtendría puntuaciones si medias para todas las clases. Luego, encontraría un umbral de puntuaciones si que contiene el 95 % de los datos. De este modo, puede estar seguro de que su clasificador identifica correctamente el 95 % de las nuevas instancias en todas las clases.

Esto es ligeramente diferente de la precisión del clasificador porque la predicción conforme puede identificar varias clases. En un clasificador multiclase, la predicción conforme también muestra la cobertura de todas las clases. Puede asignar una tasa de cobertura para clases individuales en lugar de para todo el conjunto de entrenamiento.

Aplicaciones de la cuantificación de la incertidumbre

La cuantificación de la incertidumbre es importante en muchos campos del machine learning, el desarrollo de la inteligencia artificial y la informática. Estas son solo algunas de las aplicaciones más comunes.

Incertidumbre la previsión de series temporales

Gestionar y cuantificar la incertidumbre en la previsión de series temporales es fundamental para los procesos de toma de decisiones en los ámbitos de las finanzas, la economía, la previsión meteorológica y la gestión de la cadena de suministro. Los modelos probabilísticos son preferidos por su capacidad para generar distribuciones en lugar de estimaciones puntuales. Estos modelos pueden contrastarse con los modelos deterministas, que solo generan un único valor en lugar de una distribución de valores posibles. Existen numerosos modelos probabilísticos para la previsión de series temporales, por ejemplo, los modelos ARIMA o las redes neuronales bayesianas.

El ajuste de un modelo ARIMA comienza con la captura de los componentes autorregresivos (AR) y de media móvil (MA) y la garantía de la estacionariedad mediante la diferenciación. Después de generar pronósticos puntuales, el modelo evalúa los residuos, que representan las diferencias entre los valores observados y predichos. ARIMA utiliza la desviación estándar de los residuos normalmente distribuidos para construir intervalos de predicción en torno a las previsiones puntuales.

Básicamente, cuanto más amplio sea el intervalo de predicción, mayor será la incertidumbre asociada a la previsión. Esta metodología técnica no solo refina la precisión de las previsiones puntuales, sino que también proporciona una medida estadísticamente sólida del rango dentro del cual es probable que caigan las observaciones futuras.

Deep learning e incertidumbre

El deep learning presenta múltiples retos para la cuantificación de la incertidumbre porque los modelos de deep learning suelen tener una dimensionalidad muy alta y relaciones no lineales en las capas de la red. A menudo también existen importantes limitaciones computacionales tanto en el entrenamiento como en la implementación de estos modelos, lo que dificulta cuantificar el grado de incertidumbre presente en cualquier inferencia.

Se han desarrollado varias técnicas de uso común específicamente para redes neuronales profundas. Por ejemplo, métodos basados en muestreo como los conjuntos profundos, en los que varias redes entrenadas de forma independiente tienen diferentes inicializaciones o subconjuntos de datos. La varianza entre las predicciones del conjunto puede indicar incertidumbre en la predicción de la propia arquitectura. Se trata de una técnica sencilla pero costosa desde el punto de vista computacional, ya que requiere entrenar varios modelos completos.

Otra técnica de uso común es el abandono de Monte Carlo, que mantiene activas las capas de abandono durante la inferencia.6 Este enfoque realiza múltiples pasadas hacia adelante para aproximar la inferencia bayesiana. Cada máscara de abandono crea una subred diferente, y la varianza de predicción estima la incertidumbre. Esto es fácil de implementar con los modelos existentes porque no se requieren cambios en la arquitectura del modelo. En lugar de desactivar el abandono durante la inferencia, lo mantendrías habilitado y ejecutarías múltiples pasadas hacia adelante. Un enfoque similar es la incertidumbre de normalización por lotes, que muestrea aleatoriamente las estadísticas de lotes aprendidas en el momento de la inferencia para crear distribuciones de predicción.

Aprendizaje activo

El aprendizaje activo es un paradigma de machine learning escalable en el que el algoritmo puede elegir selectivamente de qué puntos de datos aprender, en lugar de entrenarse en un conjunto de datos fijo. Un algoritmo de aprendizaje puede lograr un mejor rendimiento con menos ejemplos etiquetados si se le permite elegir los datos de los que aprende. El aprendizaje supervisado tradicional supone que un gran conjunto de datos etiquetados está disponible desde el inicio del proceso de desarrollo del modelo. En muchos escenarios del mundo real, los datos sin etiquetar son abundantes, mientras que los datos etiquetados son caros, requieren mucho tiempo o requieren conocimientos expertos para obtenerlos. Después de entrenar un modelo utilizando el conjunto etiquetado más pequeño, usaría el modelo para evaluar un gran grupo de ejemplos no etiquetados. El aprendizaje activo selecciona los ejemplos sin etiquetar más "informativos" de acuerdo con alguna estrategia de adquisición.

Las estrategias de aprendizaje activo pueden utilizar estimaciones de la cuantificación de la incertidumbre para identificar qué ejemplos no etiquetados serían más valiosos para etiquetar a continuación. La premisa básica es que el modelo debe solicitar etiquetas para los puntos de datos donde es más incierto, ya que es probable que estos ejemplos proporcionen la mayor ganancia de información.

Métricas para la UQ

Las métricas para la cuantificación de la incertidumbre se utilizan a menudo para comparar diferentes modelos que utilizan la misma arquitectura en lugar de comparar diferentes arquitecturas o como un valor absoluto. Algunos tipos de medidas, como el error de calibración esperado, le permiten medir la calibración de un modelo específico.

Sin embargo, si no está midiendo la calibración del modelo con los datos de prueba, puede utilizar varias métricas complementarias en lugar de confiar en una sola medida, ya que las diferentes métricas capturan diferentes aspectos de la incertidumbre.

En general, las métricas de incertidumbre se dividen en dos categorías, las reglas de puntuación adecuadas y las métricas de calibración.

Reglas de puntuación adecuadas

Las reglas de puntuación adecuadas funcionan mejor con modelos probabilísticos con estimaciones de incertidumbre natural porque estiman la desviación de la verdadera distribución de probabilidad. Un valor alto indica que la probabilidad prevista está muy lejos de la probabilidad real. Esto proporciona una métrica para evaluar un pronóstico o predicción probabilística, que a menudo es un rango de posibles outputs en lugar de un único valor.

Las funciones de pérdida típicas, como el error cuadrático medio, asignan una puntuación de bondad de ajuste a un valor previsto y a un valor observado. Sin embargo, las reglas de puntuación asignan una puntuación a una distribución de probabilidad predicha y a un valor observado.

La probabilidad logarítmica negativa (NLL) es un método comúnmente utilizado para optimizar las redes neuronales para tareas de clasificación. Sin embargo, esta función de pérdida también se puede utilizar como métrica de incertidumbre. Dado que la NLL mide directamente en qué medida las distribuciones de probabilidad previstas por un modelo se ajustan a los resultados observados, capta de forma inherente tanto la precisión como la calidad de confianza de las predicciones probabilísticas.

En el caso de un modelo de clasificación que predice [0.9, 0.1] para un problema binario donde la verdadera distribución de clases es 60–40, ese modelo tiene una NLL más alta en promedio. Esto se debe a que la NLL penaliza en gran medida al segundo modelo con exceso de confianza cuando sus predicciones seguras son incorrectas.

La puntuación Brier es otra regla de puntuación adecuada que se utiliza normalmente para tareas de clasificación. A veces se prefiere a la NLL porque está estrictamente limitada dentro de un rango de 0 a 1, por lo que es más estable numéricamente. Es una métrica de incertidumbre integral porque evalúa tanto la coincidencia de las probabilidades predichas con las frecuencias observadas como la confianza de las predicciones.

La puntuación de probabilidad clasificada continua (CRPS) es una métrica ampliamente utilizada en campos como la meteorología, la hidrología y la ciencia climática. La CRPS mide la discrepancia entre la función de distribución acumulativa (CDF) prevista de una previsión y una función escalonada que representa el resultado real. El CRPS cuantifica la dispersión de la distribución prevista en torno al valor observado.

Métricas de calibración

Las métricas de calibración funcionan mejor con modelos preentrenados, como modelos fundacionales o modelos de lenguaje de gran tamaño (LLM), o con tareas de clasificación que utilizan un output. Ayudan a medir la diferencia entre la "confianza real" y la "confianza prevista". Donde una regla de puntuación adecuada compara distribuciones, la calibración compara la certeza misma. Si la métrica de calibración se calcula en 0,6, debería significar que la red neuronal tiene un 60 % de certeza en una predicción concreta.7

Un modelo se considera calibrado cuando sus puntuaciones de confianza previstas reflejan con precisión la verdadera probabilidad de corrección. Más formalmente, la calibración significa que, entre todas las predicciones en las que el modelo expresa una confianza p, aproximadamente la fracción p debería ser correcta. Las métricas de calibración se calculan en todo el conjunto de datos para agrupar diferentes probabilidades. Por el contrario, las reglas de puntuación adecuadas comparan las probabilidades individuales.8

El error de calibración esperado (ECE) es una de las métricas más utilizadas. Divide las predicciones en contenedores en función de los niveles de confianza y mide la diferencia media entre la confianza y la precisión dentro de cada contenedor. Un enfoque típico utiliza de 10 a 15 contenedores equidistantes, que se utilizan para calcular la media de las probabilidades predichas en ese contenedor y la fracción de predicciones que fueron realmente correctas en ese contenedor.

Un modelo perfectamente calibrado debería ser correcto el 90 % de las veces cuando tiene un 90 % de confianza. El ECE mide esto devolviendo un valor de 0 (calibración perfecta) a 1 (peor calibración posible). La métrica trata el exceso y la falta de confianza por igual debido al valor absoluto de la métrica. Es más útil para comparar modelos entre sí en lugar de aplicar una métrica a un modelo específico de forma aislada.

El error máximo de calibración (MCE) mide el peor error de calibración tomando la diferencia máxima entre la confianza y la precisión en todos los compartimentos, en lugar de la media. Esto proporciona conocimientos sobre las regiones con peor calibración.

El error de calibración adaptativa (ACE) aborda las limitaciones del agrupamiento fijo mediante el uso de estrategias de agrupamiento adaptativo que garantizan que cada grupo contenga aproximadamente el mismo número de muestras, lo que proporciona estimaciones más sólidas, especialmente con datos limitados.

