¿Qué es la cuantificación de incertidumbre en el machine learning?

Joshua Noble

Data Scientist

¿Qué es la cuantificación de la incertidumbre?

El estadístico George Box escribió: “Todos los modelos son incorrectos, pero algunos son útiles”.1 Los modelos, ya sean cualitativos, de inteligencia artificial, matemáticos dinámicos o estadísticos, siempre son insuficientes ante las complejidades de la realidad.

Existen múltiples tipos de incertidumbre que afectan a modelos de todo tipo. Las fuentes de incertidumbre incluyen procesos aleatorios o características estocásticas en un sistema (denominada incertidumbre aleatoria), conocimiento incompleto (denominado incertidumbre epistémica) o limitaciones computacionales.

La incertidumbre del modelo nos ayuda a estimar no solo qué tan preciso es un modelo a lo largo del tiempo, sino que también puede ayudar a mostrar el rango de resultados posibles. También ayuda a comprender cómo reducir la incertidumbre tanto en la medición como en los modelos.

La incertidumbre y la precisión son conceptos diferentes que están estrechamente relacionados entre sí. La precisión de la predicción es qué tan cerca está una predicción de un valor conocido. La incertidumbre es cuánto pueden variar las predicciones y los valores objetivo.

Un sistema de visión artificial que clasifica solo imágenes de manzanas en rojo o verde tiene mucha menos incertidumbre inherente que un sistema que clasifica fotos de todos los tipos de frutas conocidas en el mundo. La cuantificación de la incertidumbre (UQ) es una forma de medir exactamente cuánto más inciertos son esos dos problemas entre sí.

Cuando un modelo contiene incertidumbres, sus resultados pueden variar con diferentes probabilidades. Tratamos estos resultados como variables aleatorias y utilizamos distribuciones de probabilidad para medir la incertidumbre. Cuanto más amplia sea la distribución, más incierto será el resultado. Si bien la varianza funciona bien para las distribuciones gaussianas, muchos sistemas del mundo real crean distribuciones no estándar que requieren diferentes enfoques de medición.

Los métodos de cuantificación de la incertidumbre le ayudan a saber qué tan seguro debe estar en una predicción en particular. Puede ser una predicción realizada por una técnica estadística como una prueba de distribuciones o puede ser una predicción o inferencia realizada por un algoritmo de machine learning. La UQ también nos ayuda a comprender el rango de resultados posibles para los modelos.

Por ejemplo, si un modelo meteorológico predice un 70 % de probabilidades de lluvia, la UQ ayuda a determinar si ese 70 % se basa en datos de entrenamiento sólidos o si hay tanta incertidumbre que la probabilidad real podría oscilar entre el 50 % y el 90 %.

Los métodos UQ son importantes porque muestran cómo los errores y las incógnitas afectan los resultados finales. Esto evita que los modelos se confíen demasiado y ayuda a centrarse en cómo mejorar la precisión de un modelo de machine learning.

El cálculo de la UQ ayuda a identificar qué incertidumbres son más importantes y ayuda a optimizar el entrenamiento del modelo. La UQ también ayuda a los responsables de la toma de decisiones a comprender la confiabilidad de las predicciones. La UQ le ayuda a convertir una afirmación como "este modelo podría estar equivocado" en información específica y medible sobre qué tan equivocado podría estar y de qué manera podría estar equivocado. Esto es invaluable cuando se trabaja en campos como la medicina, la ingeniería intolerante a fallas u otros escenarios donde la confiabilidad es primordial.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Métodos para UQ

La incertidumbre se presenta en dos tipos principales: incertidumbre basada en datos e incertidumbre impulsada por modelos. En cualquier caso, puede ser útil saber qué tan confiable es una predicción antes y después de hacerla.

Puede pensar en esto como un modelo que predice cuántas veces puede abrirse y cerrarse una bisagra de puerta antes de que falle en aproximadamente más o menos 1000 operaciones. También puede mostrar la probabilidad de que esta vez, al cerrar la bisagra de la puerta, se rompa.

Métodos basados en muestreo

Los enfoques basados en muestreo son algunas de las técnicas más utilizadas para la cuantificación de la incertidumbre porque pueden manejar cualquier tipo de complejidad del modelo y proporcionan una caracterización intuitiva e integral de la incertidumbre. Al generar muchos escenarios posibles, el muestreo puede crear una imagen estadística de qué resultados son probables y cuán inciertas son nuestras predicciones cuando se aplican a datos del mundo real. En lugar de calcular la incertidumbre analíticamente, estos métodos utilizan el análisis estadístico de muchos resultados de muestra para caracterizar las distribuciones de incertidumbre.

La simulación Monte Carlo es uno de los enfoques más comunes. Esto ejecuta miles de simulaciones de modelos con entradas variadas aleatoriamente para ver el rango de posibles salidas. Estos son especialmente comunes con los modelos paramétricos donde los intervalos de confianza y los resultados para diferentes modelos se comparan para ver el rango de todos los valores posibles.

Una variación de la simulación Monte Carlo llamada muestreo de hipercubo latino es una versión más eficiente que requiere menos ejecuciones y, al mismo tiempo, cubre bien el espacio de entrada.

La deserción de Monte Carlo es otra técnica que mantiene activa la deserción durante la predicción, ejecutando múltiples pases hacia adelante para obtener una distribución de resultados.2 La deserción se utiliza principalmente como una técnica de regularización, un método empleado para afinar modelos de machine learning. Su objetivo es optimizar la función de pérdida ajustada y, al mismo tiempo, evitar los problemas de sobreajuste o subajuste.

Monte Carlo aplica la deserción en el momento de la prueba y ejecuta múltiples pases hacia adelante con diferentes máscaras de deserción. Esto hace que el modelo produzca una distribución de predicciones en lugar de una estimación puntual única. La distribución proporciona información sobre la incertidumbre del modelo sobre las predicciones. Es una técnica computacionalmente eficiente para hacer que las redes neuronales generen distribuciones de salida sin necesidad de entrenar las redes varias veces.

Cuando ejecutar el modelo real muchas veces es demasiado costoso, los estadísticos crean modelos "sustitutos" simplificados mediante el uso de técnicas como la regresión de procesos gaussianos (GPR).5 La GPR es un enfoque bayesiano para modelar la certeza en las predicciones que lo convierte en una herramienta valiosa para la optimización, forecasting de series temporales y otras aplicaciones. La GPR se basa en el concepto de un "proceso gaussiano", que es una colección de variables aleatorias que tienen una distribución gaussiana conjunta.

Puede pensar en un proceso gaussiano como una distribución de funciones. La GPR coloca una distribución previa sobre las funciones y luego utiliza los datos observados para crear una distribución posterior. El uso de GPR para calcular la incertidumbre no requiere entrenamiento adicional ni ejecuciones de modelos porque el resultado expresa inherentemente qué tan cierto o incierto es el modelo sobre la estimación a través de la distribución. Las bibliotecas como Scikit-learn proporcionan implementaciones de GPR para el análisis de incertidumbre.

La elección del método de muestreo depende de las características más importantes para su modelo y escenario. La mayoría de las aplicaciones del mundo real combinan múltiples enfoques.

Métodos bayesianos

La estadística bayesiana es un enfoque de la inferencia estadística que utiliza el teorema de Bayes para combinar creencias previas con datos observados y actualizar la probabilidad de una hipótesis. Las estadísticas bayesianas abordan explícitamente la incertidumbre asignando una distribución de probabilidad en lugar de un único valor fijo. En lugar de dar una única "mejor" estimación para un parámetro del modelo, los métodos bayesianos proporcionan una distribución de la probabilidad de posibles estimaciones.

La inferencia bayesiana actualiza las predicciones a medida que hay nuevos datos disponibles, lo que naturalmente incorpora incertidumbre en todo el proceso de estimación de covariables. Los métodos de cadena de Markov Monte Carlo (MCMC) ayudan a implementar enfoques bayesianos cuando las soluciones matemáticas son complejas. El enfoque MCMC toma muestras de distribuciones de probabilidad complejas y de alta dimensión que no se pueden muestrear directamente, en particular las distribuciones posteriores en la inferencia bayesiana.

Las redes neuronales bayesianas (BNN) son una desviación de las redes neuronales que tratan las ponderaciones de la red como distribuciones de probabilidad en lugar de estimaciones de punto fijo. Este enfoque probabilístico permite una cuantificación de la incertidumbre basada en principios y rigurosa. En lugar de estimaciones de un solo punto para las ponderaciones, estas mantienen distribuciones de probabilidad sobre todos los parámetros de la red. Las predicciones suelen incluir

  • estimaciones de media y varianza para la distribución predictiva
  • muestras de la distribución predictiva
  • intervalos creíbles derivados de la distribución

Existen varias bibliotecas de código abierto populares para implementar BNN, como PyMC y Tensorflow-Probability.

Métodos de conjunto

La idea central detrás de la cuantificación de la incertidumbre basada en conjuntos es que si varios modelos entrenados de forma independiente no están de acuerdo en una predicción, este desacuerdo indica incertidumbre sobre la respuesta correcta.4 Por el contrario, cuando todos los modelos del conjunto están de acuerdo, esto sugiere una mayor confianza en la predicción. Esta intuición se traduce en medidas concretas de incertidumbre a través de la varianza o dispersión de las predicciones del conjunto.

Si f₁, f₂, ..., fₙ representan los estimadores de N miembros del conjunto para la entrada x, la incertidumbre se puede cuantificar como

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

donde f̄(x) es la media del conjunto. Entrenamiento de múltiples modelos diversos (diferentes arquitecturas, subconjuntos de datos de entrenamiento o inicialización) y combinación de sus predicciones. El principal inconveniente de este enfoque es el costo computacional: requiere entrenamiento y ejecución de múltiples modelos.

Predicción conforme

 

La predicción conforme es una técnica para la cuantificación de la incertidumbre. Proporciona un marco independiente del modelo y sin distribución para crear intervalos de predicción (para escenarios de regresión) o conjuntos de predicción (para aplicaciones de clasificación).3 Esto proporciona garantías de cobertura válidas con suposiciones mínimas sobre el modelo o los datos. Esto hace que la predicción conforme sea particularmente útil cuando se trabaja con modelos preentrenados de caja negra.

La predicción conforme tiene varias características que la hacen ampliamente aplicable. Por ejemplo, solo requiere que los puntos de datos sean intercambiables, en lugar de exigir que sean independientes y estén distribuidos de manera idéntica. La predicción conforme también se puede aplicar a cualquier modelo predictivo y le permite establecer la incertidumbre predictiva permisible de un modelo.

Por ejemplo, en una tarea de regresión, es posible que desee lograr una cobertura del 95 %, lo que significaría que el modelo debería dar resultados donde lo verdadero caiga dentro del intervalo de resultados el 95 % del tiempo. Este enfoque es independiente del modelo y funciona bien con clasificación, regresión, redes neuronales y una amplia variedad de modelos de series temporales.

Para usar la predicción conforme, divida sus datos en tres conjuntos: un conjunto de entrenamiento, un conjunto de prueba de referencia y un conjunto de calibración. El conjunto de calibración se utiliza para calcular las puntuaciones de no conformidad, a menudo denotadas como si. Esta puntuación mide cuán inusual es una predicción. Dada una nueva entrada, forme un intervalo de predicción basado en estas puntuaciones para garantizar la cobertura.

En una tarea de clasificación, la predicción conforme, la puntuación de no conformidad es una medida de cuánto se desvía una nueva instancia de las instancias existentes en el conjunto de entrenamiento. Esto determina si una nueva instancia pertenece a una clase en particular o no. Para la clasificación multiclase, esto suele ser 1: probabilidad de clase prevista para la etiqueta en particular.

 si=1-f(xi)[yi]

Por lo tanto, si la probabilidad prevista de que una nueva instancia pertenezca a una determinada clase es alta, la puntuación de no conformidad es baja y viceversa. Un enfoque común es calcular las puntuaciones si para cada instancia en el conjunto de calibración y ordenar las puntuaciones de bajo (cierto) a alto (incierto).

Para llegar al 95 % de cobertura conforme, calcule el umbral q donde el 95 % de las puntuaciones si son más bajas. Para nuevos ejemplos de prueba, incluya una etiqueta en el conjunto de predicción si su si es menor que el umbral q.

Si requiere una garantía de que su modelo tenía un 95 % de cobertura conformal, obtendría puntuaciones promedio de si para todas las clases. Luego, encontrará un umbral de puntuaciones si que contienen el 95 % de los datos. Entonces puede estar seguro de que su clasificador identifica correctamente el 95 % de las nuevas instancias en todas las clases.

Esto es ligeramente diferente a la precisión del clasificador porque la predicción conforme podría identificar múltiples clases. En un clasificador multiclase, la predicción conforme también muestra la cobertura de todas las clases. Puede asignar una tasa de cobertura para clases individuales en lugar de para todo el conjunto de entrenamiento.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Aplicaciones de la cuantificación de la incertidumbre

La cuantificación de la incertidumbre es importante en muchos campos de machine learning, el desarrollo de inteligencia artificial y la informática. Estas son solo algunas de las aplicaciones más comunes.

Incertidumbre en forecasting de series temporales

Gestionar y cuantificar la incertidumbre en el forecasting de series temporales es crucial para los procesos de toma de decisiones en las áreas de finanzas, economía, forecasting meteorológico y gestión de la cadena de suministro. Los modelos probabilísticos se ven favorecidos por su capacidad para producir resultados en lugar de estimaciones de puntos únicos. Estos modelos se pueden contrastar con modelos deterministas, que producen solo un resultado único en lugar de una distribución de valores posibles. Existen numerosos modelos probabilísticos para la previsión de series temporales; por ejemplo, modelos ARIMA o redes neuronales.

El ajuste de un modelo ARIMA comienza con la captura del componente autorregresivo (AR) y de media móvil (MAS) y garantiza la estacionariedad a través de la diferenciación. Después de generar pronósticos puntuales, el modelo evalúa los residuos, que representan las diferencias entre los valores observados y predichos. ARIMA utiliza la desviación estándar de los residuos distribuidos normalmente para construir intervalos de predicción alrededor de los pronósticos puntuales.

Esencialmente, cuanto más amplio sea el intervalo de predicción, mayor será la incertidumbre asociada con el pronóstico. Esta metodología técnica no solo refina la precisión de los pronósticos puntuales, sino que también proporciona una medida estadísticamente sólida del rango dentro del cual es probable que caigan las observaciones futuras.

Aprendizaje profundo e incertidumbre

El aprendizaje profundo presenta múltiples desafíos para la cuantificación de la incertidumbre porque los modelos de aprendizaje profundo a menudo tienen una alta dimensionalidad y relaciones no lineales en las capas de la red. También suele haber limitaciones computacionales significativas tanto en el entrenamiento como en el despliegue de estos modelos, lo que dificulta la cuantificación de la cantidad de incertidumbre presente en cualquier inferencia.

Se han desarrollado varias técnicas de uso común específicamente para redes neuronales profundas. Por ejemplo, los métodos basados en muestreo, como los conjuntos profundos, en los que varias redes entrenadas de forma independiente tienen diferentes inicializaciones o subconjuntos de datos. La varianza entre las predicciones del conjunto puede indicar incertidumbre en la predicción de la arquitectura en sí. Esta es una técnica simple, pero costosa desde el punto de vista computacional, ya que requiere entrenar múltiples modelos completos.

Otra técnica comúnmente utilizada es la deserción de Monte Carlo, que mantiene activas las capas de deserción durante la inferencia.6 Este enfoque realiza múltiples pases hacia adelante para aproximar la inferencia bayesiana. Cada máscara de deserción crea una subred diferente, y la varianza de predicción estima la incertidumbre. Esto es fácil de implementar con los modelos existentes porque no se requieren cambios en la arquitectura del modelo. En lugar de desactivar la deserción durante la inferencia, la mantendría habilitada y ejecutaría varios pases hacia adelante. Un enfoque similar es la incertidumbre de normalización por lotes, que muestrea aleatoriamente las estadísticas de lotes aprendidas en el momento de la inferencia para crear distribuciones de predicción.

Aprendizaje activo

El aprendizaje activo es un paradigma de machine learning escalable en el que el algoritmo puede elegir selectivamente de qué puntos de datos aprender, en lugar de entrenarse en un conjunto de datos fijo. Un algoritmo de aprendizaje puede lograr un mejor rendimiento con menos ejemplos etiquetados si se le permite elegir los datos de los que aprende. El aprendizaje supervisado tradicional supone que un gran conjunto de datos etiquetados está disponible desde el inicio del proceso de desarrollo del modelo. En muchos escenarios del mundo real, los datos sin etiquetar son abundantes, mientras que los datos etiquetados son costosos, o requieren mucho tiempo o conocimientos expertos para obtenerlos. Después de entrenar un modelo con el conjunto etiquetado más pequeño, usaría el modelo para evaluar un gran grupo de ejemplos sin etiquetar. El aprendizaje activo selecciona los ejemplos sin etiquetar más "informativos" de acuerdo con alguna estrategia de adquisición.

Las estrategias de aprendizaje activo pueden utilizar estimaciones de la cuantificación de la incertidumbre para identificar qué ejemplos sin etiquetar serían más valiosos para etiquetar a continuación. La premisa básica es que el modelo debe solicitar etiquetas para los puntos de datos donde hay más incertidumbre, ya que es probable que estos ejemplos proporcionen la mayor ganancia de información.

Métricas para UQ

Las métricas para la cuantificación de la incertidumbre se utilizan a menudo para comparar diferentes modelos que utilizan la misma arquitectura en lugar de comparar diferentes arquitecturas o como un valor absoluto. Algunos tipos de medidas, como el error de calibración esperado, le permiten medir la calibración de un modelo específico.

Sin embargo, si no está midiendo la calibración del modelo con los datos de prueba, puede usar varias métricas complementarias en lugar de depender de una sola medida, ya que diferentes métricas capturan diferentes aspectos de la incertidumbre.

En general, las métricas de incertidumbre se dividen en dos grandes categorías: reglas de puntuación adecuadas y métricas de calibración.

Reglas de puntuación adecuadas

Las reglas de puntuación adecuadas funcionan mejor con modelos probabilísticos con estimaciones de incertidumbre natural porque estiman la desviación de la verdadera distribución de probabilidad. Un valor alto indica que la probabilidad prevista está muy lejos de la probabilidad real. Esto proporciona una métrica para evaluar un pronóstico probabilístico, que a menudo es un rango de posibles resultados en lugar de un valor único.

Las funciones de pérdida típicas, como el error cuadrático medio, asignan una puntuación de bondad de ajuste a un valor predicho y a un valor observado. Sin embargo, las reglas de puntuación asignan una puntuación a una distribución de probabilidad prevista y un valor observado.

La log-verosimilitud negativa (NLL) es un método comúnmente utilizado para optimizar las redes neuronales para tareas de clasificación. Sin embargo, esta función de pérdida también se puede utilizar como métrica de incertidumbre. Como la NLL mide directamente qué tan bien se alinean las distribuciones de probabilidad predichas de un modelo con los resultados observados, captura inherentemente tanto la precisión como la calidad de confianza de las predicciones probabilísticas.

En el caso de un modelo de clasificación que predice [0.9, 0.1] para un problema binario donde la verdadera distribución de clases es 60–40, ese modelo tiene una NLL más alto en promedio. Esto se debe a que la NLL penaliza en gran medida al segundo modelo con exceso de confianza cuando sus predicciones seguras son incorrectas.

La puntuación de Brier es otra regla de puntuación adecuada que se utiliza normalmente para las tareas de clasificación. A veces se prefiere a NLL porque está estrictamente delimitado dentro de un rango de 0 a 1 y, por lo tanto, es más estable numéricamente. Es una métrica de incertidumbre integral porque evalúa qué tan bien coinciden las probabilidades predichas con las frecuencias observadas y qué tan confiables son las predicciones.

La puntuación de probabilidad clasificada continua (CRPS) es una métrica ampliamente utilizada en campos como la meteorología, la hidrología y la ciencia climática. La CRPS mide la discrepancia entre la función de distribución acumulativa (CDF) prevista de un pronóstico y una función escalonada que representa el resultado real. La CRPS cuantifica la dispersión de la distribución prevista en torno al valor observado.

Métricas de calibración

Las métricas de calibración funcionan mejor con modelos previamente entrenados, como modelos fundacionales o modelos de lenguaje grandes (LLM), o con tareas de clasificación que utilizan una salida de softmax. Ayudan a medir la diferencia entre la “confianza real” y la “confianza prevista”. Donde una regla de puntuación adecuada compara distribuciones, la calibración compara la certeza en sí misma. Si la métrica de calibración se calcula en 0.6, entonces debería significar que las redes neuronales tienen un 60 % de certeza en una predicción particular.7

Un modelo se considera calibrado cuando sus puntuaciones de confianza previstas reflejan con precisión la verdadera probabilidad de corrección. Más formalmente, la calibración significa que entre todas las predicciones en las que el modelo expresa la confianza p, aproximadamente la fracción p debería ser correcta. Las métricas de calibración se calculan en todo el conjunto de datos para agrupar diferentes probabilidades. Por el contrario, las reglas de puntuación adecuadas comparan las probabilidades individuales.8

El error de calibración esperado (ECE) es una de las métricas más utilizadas. Divide las predicciones en contenedores en función de los niveles de confianza y mide la diferencia promedio entre la confianza y la precisión dentro de cada contenedor. Un enfoque típico utiliza de 10 a 15 contenedores equidistantes, que se utilizan para calcular la media de las probabilidades predichas en ese contenedor y la fracción de predicciones que fueron realmente correctas en ese contenedor.

Un modelo perfectamente calibrado debe ser correcto el 90 % de las veces cuando tiene un 90 % de confianza. El ECE mide esto devolviendo un valor de 0 (calibración perfecta) a 1 (peor calibración posible). La métrica trata el exceso de confianza y la falta de confianza por igual debido al valor absoluto de la métrica. Es más útil para comparar modelos entre sí en lugar de aplicar una métrica a un modelo específico de forma aislada.

El error máximo de calibración (MCE) mide el error de calibración en el peor de los casos tomando la diferencia máxima entre la confianza y la precisión en todos los contenedores, en lugar del promedio. Esto proporciona insight sobre las regiones peor calibradas.

El error de calibración adaptativo (ACE) aborda las limitaciones del agrupamiento fijo mediante el uso de estrategias de agrupamiento adaptativo que garantizan que cada contenedor contenga aproximadamente el mismo número de muestras, lo que proporciona estimaciones más sólidas, especialmente con datos limitados.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

1. Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z., & University of Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. In Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, A. N., & Bates, S. (15 de julio de 2021). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., & Blundell, C. (5 de diciembre de 2016). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science, & University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2 de agosto de 2023). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, M. W., Zhang, L., Jerfel, G., & Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf