La incertidumbre se presenta en dos tipos principales: incertidumbre basada en datos e incertidumbre impulsada por modelos. En cualquier caso, puede ser útil saber qué tan confiable es una predicción antes y después de hacerla.
Puede pensar en esto como un modelo que predice cuántas veces puede abrirse y cerrarse una bisagra de puerta antes de que falle en aproximadamente más o menos 1000 operaciones. También puede mostrar la probabilidad de que esta vez, al cerrar la bisagra de la puerta, se rompa.
Métodos basados en muestreo
Los enfoques basados en muestreo son algunas de las técnicas más utilizadas para la cuantificación de la incertidumbre porque pueden manejar cualquier tipo de complejidad del modelo y proporcionan una caracterización intuitiva e integral de la incertidumbre. Al generar muchos escenarios posibles, el muestreo puede crear una imagen estadística de qué resultados son probables y cuán inciertas son nuestras predicciones cuando se aplican a datos del mundo real. En lugar de calcular la incertidumbre analíticamente, estos métodos utilizan el análisis estadístico de muchos resultados de muestra para caracterizar las distribuciones de incertidumbre.
La simulación Monte Carlo es uno de los enfoques más comunes. Esto ejecuta miles de simulaciones de modelos con entradas variadas aleatoriamente para ver el rango de posibles salidas. Estos son especialmente comunes con los modelos paramétricos donde los intervalos de confianza y los resultados para diferentes modelos se comparan para ver el rango de todos los valores posibles.
Una variación de la simulación Monte Carlo llamada muestreo de hipercubo latino es una versión más eficiente que requiere menos ejecuciones y, al mismo tiempo, cubre bien el espacio de entrada.
La deserción de Monte Carlo es otra técnica que mantiene activa la deserción durante la predicción, ejecutando múltiples pases hacia adelante para obtener una distribución de resultados.2 La deserción se utiliza principalmente como una técnica de regularización, un método empleado para afinar modelos de machine learning. Su objetivo es optimizar la función de pérdida ajustada y, al mismo tiempo, evitar los problemas de sobreajuste o subajuste.
Monte Carlo aplica la deserción en el momento de la prueba y ejecuta múltiples pases hacia adelante con diferentes máscaras de deserción. Esto hace que el modelo produzca una distribución de predicciones en lugar de una estimación puntual única. La distribución proporciona información sobre la incertidumbre del modelo sobre las predicciones. Es una técnica computacionalmente eficiente para hacer que las redes neuronales generen distribuciones de salida sin necesidad de entrenar las redes varias veces.
Cuando ejecutar el modelo real muchas veces es demasiado costoso, los estadísticos crean modelos "sustitutos" simplificados mediante el uso de técnicas como la regresión de procesos gaussianos (GPR).5 La GPR es un enfoque bayesiano para modelar la certeza en las predicciones que lo convierte en una herramienta valiosa para la optimización, forecasting de series temporales y otras aplicaciones. La GPR se basa en el concepto de un "proceso gaussiano", que es una colección de variables aleatorias que tienen una distribución gaussiana conjunta.
Puede pensar en un proceso gaussiano como una distribución de funciones. La GPR coloca una distribución previa sobre las funciones y luego utiliza los datos observados para crear una distribución posterior. El uso de GPR para calcular la incertidumbre no requiere entrenamiento adicional ni ejecuciones de modelos porque el resultado expresa inherentemente qué tan cierto o incierto es el modelo sobre la estimación a través de la distribución. Las bibliotecas como Scikit-learn proporcionan implementaciones de GPR para el análisis de incertidumbre.
La elección del método de muestreo depende de las características más importantes para su modelo y escenario. La mayoría de las aplicaciones del mundo real combinan múltiples enfoques.
Métodos bayesianos
La estadística bayesiana es un enfoque de la inferencia estadística que utiliza el teorema de Bayes para combinar creencias previas con datos observados y actualizar la probabilidad de una hipótesis. Las estadísticas bayesianas abordan explícitamente la incertidumbre asignando una distribución de probabilidad en lugar de un único valor fijo. En lugar de dar una única "mejor" estimación para un parámetro del modelo, los métodos bayesianos proporcionan una distribución de la probabilidad de posibles estimaciones.
La inferencia bayesiana actualiza las predicciones a medida que hay nuevos datos disponibles, lo que naturalmente incorpora incertidumbre en todo el proceso de estimación de covariables. Los métodos de cadena de Markov Monte Carlo (MCMC) ayudan a implementar enfoques bayesianos cuando las soluciones matemáticas son complejas. El enfoque MCMC toma muestras de distribuciones de probabilidad complejas y de alta dimensión que no se pueden muestrear directamente, en particular las distribuciones posteriores en la inferencia bayesiana.
Las redes neuronales bayesianas (BNN) son una desviación de las redes neuronales que tratan las ponderaciones de la red como distribuciones de probabilidad en lugar de estimaciones de punto fijo. Este enfoque probabilístico permite una cuantificación de la incertidumbre basada en principios y rigurosa. En lugar de estimaciones de un solo punto para las ponderaciones, estas mantienen distribuciones de probabilidad sobre todos los parámetros de la red. Las predicciones suelen incluir
- estimaciones de media y varianza para la distribución predictiva
- muestras de la distribución predictiva
- intervalos creíbles derivados de la distribución
Existen varias bibliotecas de código abierto populares para implementar BNN, como PyMC y Tensorflow-Probability.
Métodos de conjunto
La idea central detrás de la cuantificación de la incertidumbre basada en conjuntos es que si varios modelos entrenados de forma independiente no están de acuerdo en una predicción, este desacuerdo indica incertidumbre sobre la respuesta correcta.4 Por el contrario, cuando todos los modelos del conjunto están de acuerdo, esto sugiere una mayor confianza en la predicción. Esta intuición se traduce en medidas concretas de incertidumbre a través de la varianza o dispersión de las predicciones del conjunto.
Si f₁, f₂, ..., fₙ representan los estimadores de N miembros del conjunto para la entrada x, la incertidumbre se puede cuantificar como
donde f̄(x) es la media del conjunto. Entrenamiento de múltiples modelos diversos (diferentes arquitecturas, subconjuntos de datos de entrenamiento o inicialización) y combinación de sus predicciones. El principal inconveniente de este enfoque es el costo computacional: requiere entrenamiento y ejecución de múltiples modelos.
Predicción conforme
La predicción conforme es una técnica para la cuantificación de la incertidumbre. Proporciona un marco independiente del modelo y sin distribución para crear intervalos de predicción (para escenarios de regresión) o conjuntos de predicción (para aplicaciones de clasificación).3 Esto proporciona garantías de cobertura válidas con suposiciones mínimas sobre el modelo o los datos. Esto hace que la predicción conforme sea particularmente útil cuando se trabaja con modelos preentrenados de caja negra.
La predicción conforme tiene varias características que la hacen ampliamente aplicable. Por ejemplo, solo requiere que los puntos de datos sean intercambiables, en lugar de exigir que sean independientes y estén distribuidos de manera idéntica. La predicción conforme también se puede aplicar a cualquier modelo predictivo y le permite establecer la incertidumbre predictiva permisible de un modelo.
Por ejemplo, en una tarea de regresión, es posible que desee lograr una cobertura del 95 %, lo que significaría que el modelo debería dar resultados donde lo verdadero caiga dentro del intervalo de resultados el 95 % del tiempo. Este enfoque es independiente del modelo y funciona bien con clasificación, regresión, redes neuronales y una amplia variedad de modelos de series temporales.
Para usar la predicción conforme, divida sus datos en tres conjuntos: un conjunto de entrenamiento, un conjunto de prueba de referencia y un conjunto de calibración. El conjunto de calibración se utiliza para calcular las puntuaciones de no conformidad, a menudo denotadas como si. Esta puntuación mide cuán inusual es una predicción. Dada una nueva entrada, forme un intervalo de predicción basado en estas puntuaciones para garantizar la cobertura.
En una tarea de clasificación, la predicción conforme, la puntuación de no conformidad es una medida de cuánto se desvía una nueva instancia de las instancias existentes en el conjunto de entrenamiento. Esto determina si una nueva instancia pertenece a una clase en particular o no. Para la clasificación multiclase, esto suele ser 1: probabilidad de clase prevista para la etiqueta en particular.
Por lo tanto, si la probabilidad prevista de que una nueva instancia pertenezca a una determinada clase es alta, la puntuación de no conformidad es baja y viceversa. Un enfoque común es calcular las puntuaciones si para cada instancia en el conjunto de calibración y ordenar las puntuaciones de bajo (cierto) a alto (incierto).
Para llegar al 95 % de cobertura conforme, calcule el umbral q donde el 95 % de las puntuaciones si son más bajas. Para nuevos ejemplos de prueba, incluya una etiqueta en el conjunto de predicción si su si es menor que el umbral q.
Si requiere una garantía de que su modelo tenía un 95 % de cobertura conformal, obtendría puntuaciones promedio de si para todas las clases. Luego, encontrará un umbral de puntuaciones si que contienen el 95 % de los datos. Entonces puede estar seguro de que su clasificador identifica correctamente el 95 % de las nuevas instancias en todas las clases.
Esto es ligeramente diferente a la precisión del clasificador porque la predicción conforme podría identificar múltiples clases. En un clasificador multiclase, la predicción conforme también muestra la cobertura de todas las clases. Puede asignar una tasa de cobertura para clases individuales en lugar de para todo el conjunto de entrenamiento.