O que é quantificação de incertezas no aprendizado de máquina?

Joshua Noble

Data Scientist

O que é quantificação da incerteza?

O estatístico George Box escreveu: "Todos os modelos estão errados, mas alguns são úteis".1 Os modelos, sejam eles qualitativos, de inteligência artificial, matemáticos dinâmicos ou estatísticos, sempre ficam aquém das complexidades da realidade.

Existem vários tipos de incertezas que afetam modelos de todos os tipos. As fontes de incerteza incluem processos aleatórios ou características estocásticas em um sistema (referidas como incerteza aleatória), conhecimento incompleto (referido como incerteza epistêmica) ou limitações computacionais.

A incerteza do modelo nos ajuda a estimar não apenas a precisão de um modelo ao longo do tempo, mas também a mostrar a gama de resultados possíveis. Ajuda também a entender como reduzir a incerteza na medição e nos modelos.

Incerteza e precisão são conceitos diferentes, que estão intimamente relacionados entre si. A precisão da previsão é a proximidade de uma previsão em relação a um valor conhecido. A incerteza é o quanto as previsões e os valores-alvo podem variar.

Um sistema de computer vision que classifica apenas imagens de maçãs em vermelho ou verde tem muito menos incerteza inerente do que um sistema que classifica fotos de todos os tipos de frutas conhecidas no mundo. A quantificação da incerteza (UQ) é uma maneira de medir exatamente o quanto esses dois problemas são mais incertos um do outro.

Quando um modelo contém incertezas, suas saídas podem variar com diferentes probabilidades. Tratamos essas saídas como variáveis aleatórias e usamos distribuições de probabilidade para medir a incerteza. Quanto mais ampla a distribuição, mais incerto é o resultado. Embora a variância funcione bem para distribuições gaussianas, muitos sistemas do mundo real criam distribuições não padronizadas, que exigem diferentes abordagens de medição.

Os métodos de quantificação da incerteza ajudam a informar quanta confiança você deve ter em uma determinada previsão. Essa pode ser uma previsão feita por uma técnica estatística, como um teste de distribuições, ou uma previsão ou inferência feita por um algoritmo de aprendizado de máquina. A UQ também nos ajuda a entender a gama de resultados possíveis para os modelos.

Por exemplo, se um modelo meteorológico prevê 70% de chance de chuva, a UQ ajuda a determinar se esses 70% são baseados em dados de treinamento sólidos ou se há tanta incerteza que a chance real pode estar entre 50% e 90%.

Os métodos de QU são importantes porque mostram como erros e desconhecidos afetam os resultados finais. Isso evita que os modelos fiquem confiantes demais e ajuda a focar em como melhorar a precisão de um modelo de aprendizado de máquina.

O cálculo da UQ ajuda a identificar quais incertezas são mais importantes e ajuda na otimização do treinamento do modelo. A UQ também ajuda os tomadores de decisão a entender a confiabilidade das previsões. A UQ ajuda você a transformar uma declaração como "este modelo pode estar errado" em informações específicas e mensuráveis sobre o quanto ele pode estar errado e de que forma pode estar errado. Isso é inestimável quando se trabalha em campos como medicina, engenharia de tolerância a falhas ou outros cenários em que a confiabilidade é fundamental.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Métodos para UQ

A incerteza vem em dois tipos principais: incerteza baseada em dados e incerteza baseada em modelo. Em ambos os casos, pode ser útil saber a confiabilidade de uma previsão antes e depois de ser feita.

Você pode pensar nisso como um modelo que prevê quantas vezes uma dobradiça de porta pode abrir e fechar antes de falhar em aproximadamente mais ou menos 1000 operações. Também pode mostrar a probabilidade de que, dessa vez, o fechamento da dobradiça da porta a quebre.

Métodos baseados em amostragem

As abordagens baseadas em amostragem são algumas das técnicas mais comumente usadas para quantificação da incerteza, pois podem lidar com qualquer tipo de complexidade de modelo e fornecem uma caracterização da incerteza abrangente e intuitiva. Ao gerar muitos cenários possíveis, a amostragem pode construir uma imagem estatística dos resultados prováveis e do quanto nossas previsões são incertas quando aplicadas a dados do mundo real. Em vez de calcular a incerteza analiticamente, esses métodos usam análise estatística de muitas saídas de amostras para caracterizar distribuições de incerteza.

A simulação de Monte Carlo é uma das abordagens mais comuns. Ela executa milhares de simulações de modelos com entradas variadas aleatoriamente para ver a gama de possíveis saídas. Ela é especialmente comum com modelos paramétricos, em que os intervalos de confiança e as saídas dos modelos para diferentes modelos são comparados para ver a faixa de todos os valores possíveis.

Uma variação da simulação de Monte Carlo chamada amostragem por hipercubo latino é uma versão mais eficiente, que requer menos execuções e ainda cobre bem o espaço de entradas.

O abandono de Monte Carlo é outra técnica que mantém o abandono ativo durante a previsão, executando várias passagens adiante para obter uma distribuição de saídas.2 O abandono é usado principalmente como uma técnica de regularização, um método empregado para ajuste fino dos modelos de aprendizado de máquina. O objetivo é otimizar a função de perda ajustada, evitando os problemas de overfitting ou underfitting.

O abandono de Monte Carlo aplica abandono no tempo de teste e executa várias passagens adiante com diferentes máscaras de abandono. Isso faz com que o modelo produza uma distribuição de previsões em vez de uma única estimativa pontual. A distribuição fornece insights sobre a incerteza do modelo sobre as previsões. É uma técnica computacionalmente eficiente para fazer com que as redes neurais produzam distribuições sem exigir que as redes sejam treinadas várias vezes.

Quando a execução do modelo real muitas vezes é muito cara, os estatísticos criam modelos "substitutos" simplificados usando técnicas como a regressão do processo gaussiano (GPR).5 A GPR é uma abordagem bayesiana para a certeza da modelagem nas previsões, o que a torna uma ferramenta valiosa para otimização, forecasting de séries temporais e outras aplicações. A GPR baseia-se no conceito de "processo gaussiano", que é uma coleção de variáveis aleatórias que possuem uma distribuição gaussiana conjunta.

Você pode pensar em um processo gaussiano como uma distribuição de funções. A GPR coloca uma distribuição anterior sobre as funções e, em seguida, usa dados observados para criar uma distribuição posterior. Usar a GPR para calcular incertezas não requer treinamento extra ou execuções do modelo porque a saída expressa inerentemente o quanto o modelo está certo ou incerto sobre a estimativa por meio da distribuição. Bibliotecas como a Scikit-learn oferecem implementações da GPR para análise da incerteza.

A escolha do método de amostragem depende de quais funcionalidades são mais importantes para seu modelo e cenário. A maioria das aplicações do mundo real combina várias abordagens.

Métodos bayesianos

A estatística bayesiana é uma abordagem para inferência estatística que usa o teorema de Bayes para combinar crenças prévias com dados observados e atualizar a probabilidade de uma hipótese. A estatística bayesiana lida explicitamente com a incerteza ao atribuir uma distribuição de probabilidades em vez de um único valor fixo. Em vez de fornecer uma única estimativa para um parâmetro do modelo, os métodos bayesianos fornecem uma distribuição de probabilidades de estimativas possíveis.

A inferência bayesiana atualiza as previsões à medida que novos dados se tornam disponíveis, o que naturalmente incorpora incerteza em todo o processo de estimativa de covariáveis. Os métodos de Monte Carlo (MCMC) da cadeia de Markov ajudam a implementar abordagens bayesianas quando as soluções matemáticas são complexas. O MCMC aborda amostras de distribuições de probabilidades complexas e de alta dimensão que não podem ser amostradas diretamente, particularmente distribuições posteriores na inferência Bayesiana.

As redes neurais bayesianas (BNNs) são uma mudança das redes neurais tradicionais, que tratam os pesos da rede como distribuições de probabilidade em vez de estimativas de ponto fixo. Essa abordagem probabilística permite a quantificação da incerteza com princípios e rigorosa. Em vez de estimativas de ponto único para pesos, elas mantêm distribuições de probabilidades sobre todos os parâmetros da rede. As previsões normalmente incluem

  • estimativas de média e variância para a distribuição preditiva
  • amostras da distribuição preditiva
  • intervalos confiáveis derivados da distribuição

Existem várias bibliotecas populares de código aberto para implementar BNNs, como PyMC e Tensorflow-Probability.

Métodos de conjunto

A ideia central por trás da quantificação da incerteza baseada em conjunto é que, se vários modelos treinados de forma independente discordam sobre uma previsão, essa discordância indica incerteza sobre a resposta correta.4 Por outro lado, quando todos os modelos do conjunto concordam, isso sugere maior confiança na previsão. Essa intuição se traduz em medidas concretas de incerteza por meio da variância ou dispersão das previsões do conjunto.

Se f₁, f₂, ..., fₙ representarem os estimadores de N membros do conjunto para a entrada x, a incerteza poderá ser quantificada como

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

onde f’(x) é a média do conjunto. Treinamento de vários modelos diversos (diferentes arquiteturas, subconjuntos de dados de treinamento ou inicialização) e combinação de suas previsões. A principal desvantagem dessa abordagem é o custo computacional: ela exige treinamento e execução de vários modelos.

Previsão conforme

 

A previsão conforme é uma técnica para quantificação da incerteza. Ela fornece um framework independente de modelo e sem distribuição para criar intervalos de previsão (para cenários de regressão) ou conjuntos de previsão (para aplicações de classificações).3 Isso oferece garantias de cobertura válidas com o mínimo de suposições sobre o modelo ou os dados. Isso torna a previsão conforme particularmente útil ao trabalhar com modelos pré-treinados de caixa-preta.

A previsão conforme tem várias funcionalidades que a tornam amplamente aplicável. Por exemplo, ela exige apenas que os pontos de dados sejam intercambiáveis, em vez de exigir que sejam independentes e distribuídos de forma idêntica. A previsão conforme também pode ser aplicada a qualquer modelo preditivo e permite que você defina a incerteza preditiva admissível de um modelo.

Por exemplo, em uma tarefa de regressão, você pode querer atingir 95% de cobertura, o que significaria que o modelo deve produzir uma faixa onde "true" caia no intervalo de saída 95% das vezes. Essa abordagem é independente de modelo e funciona bem com classificação, regressão linear, redes neurais e uma ampla variedade de modelos de séries temporais.

Para usar a previsão conforme, divida os dados em três conjuntos: um conjunto de treinamento, um conjunto de testes de linha de base e um conjunto de calibração. O conjunto de calibração é utilizado para calcular as pontuações de não conformidade, frequentemente denominadas si. Essa pontuação mede o quanto uma previsão é incomum. Dada uma nova entrada, forme um intervalo de previsão com base nessas pontuações para garantir a cobertura.

Em uma tarefa de classificação, a pontuação de não conformidade da previsão conforme é uma medida de quanto uma nova instância se desvia das instâncias existentes no conjunto de treinamento. Isso determina se uma nova instância pertence a uma classe específica ou não. Para classificação multiclasses, isso é normalmente 1 — probabilidade de classe prevista para o rótulo específico.

 si=1-f(xi)[yi]

Portanto, se a probabilidade prevista de uma nova instância pertencer a uma determinada classe é alta, a pontuação de não conformidade é baixa e vice-versa. Uma abordagem comum é calcular as pontuações si para cada instância no conjunto de calibração e classificar as pontuações de baixa (certa) para alta (incerta).

Para chegar a 95% de cobertura conforme, calcule o limite q onde 95% das pontuações si são mais baixas. Para novos exemplos de teste, inclua um rótulo no conjunto de previsão se seu si for menor que o limite q.

Se você exigisse uma garantia de que seu modelo tivesse 95% de cobertura conforme, obteria si pontuações médias para todas as classes. Em seguida, você encontraria um limite de pontuações si que contenham 95% dos dados. Você pode, então, ter certeza de que seu classificador identificará corretamente 95% das novas instâncias em todas as classes.

Isso é um pouco diferente da precisão do classificador, porque a previsão conforme pode identificar várias classes. Em um classificador multiclasses, a previsão conforme também mostra a cobertura para todas as classes. Você pode atribuir uma taxa de cobertura para classes individuais em vez de para todo o conjunto de treinamento.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Aplicações da quantificação da incerteza

A quantificação da incerteza é importante em muitos campos do aprendizado de máquina, desenvolvimento de inteligência artificial e ciência da computação. Aqui estão apenas algumas das aplicações mais comuns.

Incerteza no forecasting de séries temporais

Gerenciar e quantificar a incerteza no forecasting de séries temporais é crucial para os processos de tomada de decisão em finanças, economia, previsão meteorológica e gerenciamento da cadeia de suprimentos. Modelos probabilísticos são preferidos por sua capacidade de produzir distribuições de saída em vez de estimativas de pontos únicos. Esses modelos podem ser contrastados com modelos determinísticos, que produzem apenas um único valor em vez de uma distribuição de valores possíveis. Existem inúmeros modelos probabilísticos para forecasting de séries temporais, como os modelos ARIMA ou as redes neurais bayesianas.

O ajuste de um modelo ARIMA começa com a captura dos componentes de autorregressão (AR) e de média móvel (MA) e garantindo estacionariedade por meio da diferenciação. Depois de gerar as previsões pontuais, o modelo avalia os resíduos, que representam as diferenças entre os valores observados e previstos. O ARIMA usa o desvio padrão dos resíduos normalmente distribuídos para construir intervalos de previsão em torno das previsões pontuais.

Essencialmente, quanto mais amplo o intervalo de previsão, maior a incerteza associada à previsão. Essa metodologia técnica não só refina a precisão das previsões pontuais, mas também fornece uma medida estatisticamente sólida da faixa dentro da qual as observações futuras provavelmente se enquadrarão.

Deep learning e incerteza

O deep learning apresenta vários desafios para a quantificação da incerteza porque os modelos de deep learning geralmente têm uma alta dimensionalidade e relacionamentos não lineares através das camadas da rede. Também há restrições computacionais significativas, tanto no treinamento quanto na implementação desses modelos, o que torna difícil quantificar o valor da incerteza presente em qualquer inferência.

Várias técnicas comumente usadas foram desenvolvidas especificamente para redes neurais. Por exemplo, métodos baseados em amostragem, como deep ensembles, onde várias redes treinadas de forma independente têm diferentes inicializações ou subconjuntos de dados. A variância entre as previsões do conjunto pode indicar incerteza na previsão da própria arquitetura. Essa é uma técnica simples, mas computacionalmente cara, pois exige o treinamento de vários modelos completos.

Outra técnica comumente usada é o abandono de Monte Carlo, que mantém camadas de abandono ativas durante a inferência.6 Essa abordagem executa várias passagens adiante para aproximar a inferência bayesiana. Cada máscara de abandono cria uma sub-rede diferente, e a variância de previsão estima a incerteza. Isso é fácil de implementar com os modelos existentes, porque nenhuma alteração é necessária na arquitetura do modelo. Em vez de desativar o abandono durante a inferência, você o manteria habilitado e executaria várias passagens de avanço. Uma abordagem semelhante é a incerteza de normalização de lotes, que obtém amostras aleatoriamente das estatísticas de lotes aprendidas no tempo de inferência para criar distribuições de previsão.

Aprendizagem ativa

O aprendizado ativo é um paradigma do aprendizado de máquina escalável, no qual o algoritmo pode escolher seletivamente com quais pontos de dados aprender, em vez de ser treinado em um conjunto de dados fixo. Um algoritmo de aprendizado pode alcançar um melhor desempenho com menos exemplos rotulados se puder escolher os dados que aprende. O aprendizado supervisionado tradicional pressupõe que um grande conjunto de dados rotulado está disponível desde o início do processo de desenvolvimento do modelo. Em muitos cenários do mundo real, os dados não rotulados são abundantes, enquanto os dados rotulados são caros, demorados ou exigem conhecimento especializado para serem obtidos. Após treinar um modelo utilizando o conjunto rotulado menor, você usaria o modelo para avaliar um grande conjunto de exemplos não rotulados. O aprendizado ativo seleciona os exemplos não rotulados mais "informativos", de acordo com alguma estratégia de aquisição.

As estratégias de aprendizado ativo podem usar estimativas de quantificação da incerteza para identificar quais exemplos não rotulados seriam mais valiosos para rotular em seguida. A premissa básica é que o modelo deve solicitar rótulos para pontos de dados onde for mais incerto, pois esses exemplos provavelmente fornecerão o maior ganho de informação.

Métricas para UQ

As métricas para quantificação da incerteza são frequentemente usadas para comparar diferentes modelos que usam a mesma arquitetura, em vez de comparar diferentes arquiteturas ou como um valor absoluto. Alguns tipos de medidas, como erro de calibração esperado, permitem que você meça a calibração de um modelo específico.

No entanto, se você não estiver medindo a calibração do modelo para os dados de teste, poderá usar várias métricas complementares em vez de confiar em uma única medida, pois métricas diferentes capturam aspectos diferentes da incerteza.

Geralmente, as métricas da incerteza se enquadram em duas grandes categorias: regras de pontuação adequada e métricas de calibração.

Regras de pontuação adequada

As regras de pontuação adequada funcionam melhor com modelos probabilísticos com estimativas da incerteza natural, pois estimam o desvio da verdadeira distribuição de probabilidades. Um valor alto indica que a probabilidade prevista está longe da probabilidade verdadeira. Isso fornece uma métrica para avaliar uma previsão probabilística, que geralmente é uma faixa de possíveis saídas em vez de um único valor.

Funções de perda típicas, como erro quadrático médio, atribuem uma pontuação de grau de adequação a um valor previsto e um valor observado. No entanto, as regras de pontuação atribuem uma pontuação a uma distribuição de probabilidades prevista e um valor observado.

A probabilidade logarítmica negativa (NLL) é um método comumente usado para otimizar redes neurais para tarefas de classificação. No entanto, essa função de perda também pode ser usada como uma métrica da incerteza. Como a NLL mede diretamente o quanto as distribuições de probabilidades previstas de um modelo se alinham com os resultados observados, ela captura inerentemente a precisão e a qualidade de confiança das previsões probabilísticas.

No caso de um modelo de classificação que prevê [0,9, 0,1] para um problema binário em que a distribuição verdadeira das classes é de 60-40, esse modelo tem uma NLL mais alta, em média. Isso ocorre porque a NLL penaliza fortemente o segundo modelo com excesso de confiança quando suas previsões confiantes estão erradas.

A pontuação de Brier é outra regra de pontuação adequada normalmente usada para tarefas de classificação. Às vezes, é preferida em relação à NLL porque é estritamente limitada dentro de um intervalo de 0-1 e, portanto, é numericamente mais estável. É uma métrica da incerteza abrangente, porque avalia até que ponto as probabilidades previstas correspondem às frequências observadas e a confiança das previsões.

A pontuação de probabilidade classificada contínua (CRPS) é uma métrica amplamente usada em campos como meteorologia, hidrologia e ciência do clima. A CRPS mede a discrepância entre a função de distribuição acumulativa prevista (CDF) de uma previsão e uma função de etapa que representa o resultado verdadeiro. A CRPS quantifica a expansão da distribuição de previsão em torno do valor observado.

Métricas de calibração

As métricas de calibração funcionam melhor com modelos pré-treinados, como modelos de base, grandes modelos de linguagem (LLMs) ou com tarefas de classificação que utilizam uma saída softmax. Elas ajudam a medir a diferença entre "confiança verdadeira" e "confiança prevista". Enquanto uma regra de pontuação adequada compara distribuições, a calibração compara a própria certeza. Se a métrica de calibração for calculada como 0,6, isso deverá significar que a rede neural tem 60% de certeza em uma previsão específica.7

Um modelo é considerado calibrado quando suas pontuações de confiança previstas refletem com precisão a verdadeira probabilidade de correção. Mais formalmente, a calibração significa que, entre todas as previsões em que o modelo expressa confiança p, aproximadamente a fração p deve estar correta. As métricas de calibração são calculadas em todo o conjunto de dados para agrupar diferentes probabilidades. Por outro lado, regras de pontuação adequadas comparam probabilidades individuais.8

O Erro de Calibração Esperado (ECE) é uma das métricas mais amplamente utilizadas. Ele divide as previsões em compartimentos com base em níveis de confiança e mede a diferença média entre confiança e precisão dentro de cada compartimento. Uma abordagem típica usa de 10 a 15 compartimentos igualmente espaçados, que são usados para calcular a média das probabilidades previstas nesse compartimento e a fração de previsões que estavam realmente corretas nesse compartimento.

Um modelo perfeitamente calibrado deve estar correto em 90% das vezes, quando tem 90% de confiança. O ECE mede isso retornando um valor de 0 (calibração perfeita) a 1 (pior calibração possível). A métrica trata o excesso de confiança e a falta de confiança igualmente devido ao valor absoluto da métrica. É mais útil para comparar modelos entre si, em vez de aplicar uma métrica a um modelo específico de forma isolada.

O Erro Máximo de Calibração (MCE) mede o erro de calibração do pior caso, calculando a diferença máxima entre confiança e precisão em todos os compartimentos, em vez da média. Isso fornece insights sobre as regiões mais mal calibradas.

O Erro de Calibração Adaptativa (ACE) lida com as limitações da compartimentalização fixa usando estratégias de categorização adaptativa que garantem que cada compartimento contenha aproximadamente o mesmo número de amostras, fornecendo estimativas mais robustas, especialmente com dados limitados.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

1. Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z., e University of Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. Em Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, A. N., e Bates, S. (15 de julho de 2021). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., e Blundell, C. (5 de dezembro de 2016). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science e University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2 de agosto de 2023). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y., e Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, M. W., Zhang, L., Jerfel, G. e Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf