La incertidumbre se presenta en dos tipos principales: incertidumbre basada en datos e incertidumbre impulsada por modelos. En cualquier caso, puede ser útil saber cuán fiable es una predicción tanto antes como después de que se haga.
Se puede considerar como un modelo que predice cuántas veces se puede abrir y cerrar una bisagra de puerta antes de que falle, con una precisión aproximada de más o menos 1000 operaciones. También puede mostrar la probabilidad de que esta vez al cerrar la bisagra de la puerta se rompa.
Métodos basados en el muestreo
Los enfoques basados en el muestreo son algunas de las técnicas más utilizadas para la cuantificación de la incertidumbre, ya que pueden manejar cualquier tipo de complejidad del modelo y proporcionan una caracterización de la incertidumbre intuitiva y completa. Al generar muchos escenarios posibles, el muestreo puede construir una imagen estadística de qué resultados son probables y cuán inciertas son nuestras predicciones cuando se aplican a datos del mundo real. En lugar de calcular la incertidumbre analíticamente, estos métodos utilizan el análisis estadístico de muchos outputs para caracterizar las distribuciones de incertidumbre.
La simulación Monte Carlo es uno de los enfoques más comunes. Esto ejecuta miles de simulaciones de modelos con entradas variadas aleatoriamente para ver el rango de posibles outputs. Son especialmente comunes con los modelos paramétricos en los que se comparan los intervalos de confianza y los outputs de los diferentes modelos para ver el rango de todos los valores posibles.
Una variante de la simulación de Monte Carlo denominada muestreo de hipercubo latino es una versión más eficiente que requiere menos ejecuciones y, al mismo tiempo, cubre bien el espacio de entrada.
El abandono Monte Carlo es otra técnica que mantiene el abandono activo durante la predicción, ejecutando múltiples pasadas hacia adelante para obtener una distribución de outputs.2 El abandono se utiliza principalmente como técnica de regularización, un método empleado para afinar los modelos de machine learning. Su objetivo es optimizar la función de pérdida ajustada evitando los problemas de sobreajuste o infraajuste.
El abandono Monte Carlo aplica el abandono en el momento de la prueba y ejecuta múltiples pases hacia adelante con diferentes máscaras de abandono. Esto hace que el modelo produzca una distribución de predicciones en lugar de una estimación puntual única. La distribución proporciona conocimiento sobre la incertidumbre del modelo sobre las predicciones. Es una técnica computacionalmente eficiente para conseguir que las redes neuronales generen distribuciones sin necesidad de entrenarlas varias veces.
Cuando ejecutar el modelo real muchas veces es demasiado caro, los estadísticos crean modelos "sustitutos" simplificados utilizando técnicas como la regresión de procesos gaussianos (GPR).5 La GPR es un enfoque bayesiano para modelar la certeza en las predicciones que lo convierte en una herramienta valiosa para la optimización, la previsión de series temporales y otras aplicaciones. La GPR se basa en el concepto de "proceso gaussiano", que es una colección de variables aleatorias que tienen una distribución gaussiana conjunta.
Se puede considerar un proceso gaussiano como una distribución de funciones. La GPR coloca una distribución previa sobre las funciones y luego utiliza los datos observados para crear una distribución posterior. El uso de la GPR para calcular la incertidumbre no requiere entrenamiento adicional ni ejecuciones de modelos porque la salida expresa inherentemente qué tan cierto o incierto es el modelo sobre la estimación a través de la distribución. Bibliotecas como Scikit-learn proporcionan implementaciones de GPR para el análisis de incertidumbre.
La elección del método de muestreo depende de las características más importantes para su modelo y escenario. La mayoría de las aplicaciones del mundo real combinan múltiples enfoques.
Métodos bayesianos
La estadística bayesiana es un enfoque de la inferencia estadística que utiliza el teorema de Bayes para combinar creencias previas con datos observados y actualizar la probabilidad de una hipótesis. Las estadísticas bayesianas se ocupan explícitamente de la incertidumbre asignando una distribución de probabilidad en lugar de un único valor fijo. En lugar de dar una única estimación "mejor" para un parámetro del modelo, los métodos bayesianos proporcionan una distribución de la probabilidad de las posibles estimaciones.
La inferencia bayesiana actualiza las predicciones a medida que se dispone de nuevos datos, lo que naturalmente incorpora incertidumbre en todo el proceso de estimación de covariables. Los métodos de Monte Carlo de la cadena de Markov (MCMC) ayudan a implementar enfoques bayesianos cuando las soluciones matemáticas son complejas. El enfoque MCMC toma muestras de distribuciones de probabilidad complejas y de alta dimensión que no se pueden muestrear directamente, en particular las distribuciones posteriores en la inferencia bayesiana.
Las redes neuronales bayesianas (BNN) son una desviación de las redes neuronales tradicionales que tratan los pesos de la red como distribuciones de probabilidad en lugar de estimaciones de punto fijo. Este enfoque probabilístico permite una cuantificación de la incertidumbre rigurosa y basada en principios. En lugar de estimaciones de un solo punto para las ponderaciones, estas mantienen distribuciones de probabilidad sobre todos los parámetros de la red. Las predicciones suelen incluir
- estimaciones de media y varianza para la distribución predictiva
- muestras de la distribución predictiva
- intervalos creíbles derivados de la distribución
Existen varias bibliotecas de código abierto populares para implementar BNN como PyMC y Tensorflow-Probability.
Métodos de conjunto
La idea central detrás de la cuantificación de la incertidumbre basada en conjuntos es que si varios modelos entrenados de forma independiente no están de acuerdo en una predicción, este desacuerdo indica incertidumbre sobre la respuesta correcta.4 Por el contrario, cuando todos los modelos del conjunto coinciden, esto sugiere una mayor confianza en la predicción. Esta intuición se traduce en medidas concretas de incertidumbre a través de la varianza o dispersión de las predicciones del conjunto.
Si f₁, f₂, ..., fₙ representan los estimadores de N miembros del conjunto para la entrada x, la incertidumbre se puede cuantificar como
donde f̄(x) es la media del conjunto. Entrenar múltiples modelos diversos (diferentes arquitecturas, subconjuntos de datos de entrenamiento o inicialización) y combinar sus predicciones. El principal inconveniente de este enfoque es el coste computacional: requiere entrenar y ejecutar múltiples modelos.
Predicción conforme
La predicción conforme es una técnica para la cuantificación de la incertidumbre. Proporciona un marco independiente del modelo y sin distribución para crear intervalos de predicción (para escenarios de regresión) o conjuntos de predicción (para aplicaciones de clasificación).3 Esto proporciona garantías de cobertura válidas con suposiciones mínimas sobre el modelo o los datos. Esto hace que la predicción conforme sea especialmente útil cuando se trabaja con modelos preentrenados de caja negra.
La predicción conforme tiene varias características que la hacen ampliamente aplicable. Por ejemplo, solo requiere que los puntos de datos sean intercambiables, en lugar de exigir que sean independientes y estén distribuidos de forma idéntica. La predicción conforme también se puede aplicar a cualquier modelo predictivo y le permite establecer la incertidumbre predictiva permisible de un modelo.
Por ejemplo, en una tarea de regresión, es posible que desee lograr una cobertura del 95 %, lo que significaría que el modelo debería generar un rango en el que lo verdadero caiga dentro del intervalo de output el 95 % de las veces. Este enfoque es independiente del modelo y funciona bien con la clasificación, la regresión lineal, las redes neuronales y una amplia variedad de modelos de series temporales.
Para utilizar la predicción conforme, divida sus datos en tres conjuntos: un conjunto de entrenamiento, un conjunto de pruebas de referencia y un conjunto de calibración. El conjunto de calibración se utiliza para calcular las puntuaciones de no conformidad, a menudo denotadas como si. Esta puntuación mide lo inusual que es una predicción. Dada una nueva entrada, forme un intervalo de predicción basado en estas puntuaciones para garantizar la cobertura.
En una tarea de clasificación, la puntuación de no conformidad de la predicción conforme es una medida de cuánto se desvía una nueva instancia de las instancias existentes en el conjunto de entrenamiento. Esto determina si una nueva instancia pertenece a una clase en particular o no. Para la clasificación multiclase, esto suele ser 1: la probabilidad de clase prevista para la etiqueta concreta.
Por lo tanto, si la probabilidad prevista de que una nueva instancia pertenezca a una determinada clase es alta, la puntuación de no conformidad es baja, y viceversa. Un enfoque habitual consiste en calcular las puntuaciones si para cada instancia del conjunto de calibración y ordenarlas de menor (seguro) a mayor (incierto).
Para llegar al 95 % de cobertura conforme, calcule el umbral q donde el 95 % de las puntuaciones si son inferiores. Para los nuevos ejemplos de prueba, incluya una etiqueta en el conjunto de predicción si su si es inferior al umbral q.
Si necesitara una garantía de que su modelo tuviera una cobertura conforme del 95 %, obtendría puntuaciones si medias para todas las clases. Luego, encontraría un umbral de puntuaciones si que contiene el 95 % de los datos. De este modo, puede estar seguro de que su clasificador identifica correctamente el 95 % de las nuevas instancias en todas las clases.
Esto es ligeramente diferente de la precisión del clasificador porque la predicción conforme puede identificar varias clases. En un clasificador multiclase, la predicción conforme también muestra la cobertura de todas las clases. Puede asignar una tasa de cobertura para clases individuales en lugar de para todo el conjunto de entrenamiento.