A incerteza vem em dois tipos principais: incerteza baseada em dados e incerteza baseada em modelo. Em ambos os casos, pode ser útil saber a confiabilidade de uma previsão antes e depois de ser feita.
Você pode pensar nisso como um modelo que prevê quantas vezes uma dobradiça de porta pode abrir e fechar antes de falhar em aproximadamente mais ou menos 1000 operações. Também pode mostrar a probabilidade de que, dessa vez, o fechamento da dobradiça da porta a quebre.
Métodos baseados em amostragem
As abordagens baseadas em amostragem são algumas das técnicas mais comumente usadas para quantificação da incerteza, pois podem lidar com qualquer tipo de complexidade de modelo e fornecem uma caracterização da incerteza abrangente e intuitiva. Ao gerar muitos cenários possíveis, a amostragem pode construir uma imagem estatística dos resultados prováveis e do quanto nossas previsões são incertas quando aplicadas a dados do mundo real. Em vez de calcular a incerteza analiticamente, esses métodos usam análise estatística de muitas saídas de amostras para caracterizar distribuições de incerteza.
A simulação de Monte Carlo é uma das abordagens mais comuns. Ela executa milhares de simulações de modelos com entradas variadas aleatoriamente para ver a gama de possíveis saídas. Ela é especialmente comum com modelos paramétricos, em que os intervalos de confiança e as saídas dos modelos para diferentes modelos são comparados para ver a faixa de todos os valores possíveis.
Uma variação da simulação de Monte Carlo chamada amostragem por hipercubo latino é uma versão mais eficiente, que requer menos execuções e ainda cobre bem o espaço de entradas.
O abandono de Monte Carlo é outra técnica que mantém o abandono ativo durante a previsão, executando várias passagens adiante para obter uma distribuição de saídas.2 O abandono é usado principalmente como uma técnica de regularização, um método empregado para ajuste fino dos modelos de aprendizado de máquina. O objetivo é otimizar a função de perda ajustada, evitando os problemas de overfitting ou underfitting.
O abandono de Monte Carlo aplica abandono no tempo de teste e executa várias passagens adiante com diferentes máscaras de abandono. Isso faz com que o modelo produza uma distribuição de previsões em vez de uma única estimativa pontual. A distribuição fornece insights sobre a incerteza do modelo sobre as previsões. É uma técnica computacionalmente eficiente para fazer com que as redes neurais produzam distribuições sem exigir que as redes sejam treinadas várias vezes.
Quando a execução do modelo real muitas vezes é muito cara, os estatísticos criam modelos "substitutos" simplificados usando técnicas como a regressão do processo gaussiano (GPR).5 A GPR é uma abordagem bayesiana para a certeza da modelagem nas previsões, o que a torna uma ferramenta valiosa para otimização, forecasting de séries temporais e outras aplicações. A GPR baseia-se no conceito de "processo gaussiano", que é uma coleção de variáveis aleatórias que possuem uma distribuição gaussiana conjunta.
Você pode pensar em um processo gaussiano como uma distribuição de funções. A GPR coloca uma distribuição anterior sobre as funções e, em seguida, usa dados observados para criar uma distribuição posterior. Usar a GPR para calcular incertezas não requer treinamento extra ou execuções do modelo porque a saída expressa inerentemente o quanto o modelo está certo ou incerto sobre a estimativa por meio da distribuição. Bibliotecas como a Scikit-learn oferecem implementações da GPR para análise da incerteza.
A escolha do método de amostragem depende de quais funcionalidades são mais importantes para seu modelo e cenário. A maioria das aplicações do mundo real combina várias abordagens.
Métodos bayesianos
A estatística bayesiana é uma abordagem para inferência estatística que usa o teorema de Bayes para combinar crenças prévias com dados observados e atualizar a probabilidade de uma hipótese. A estatística bayesiana lida explicitamente com a incerteza ao atribuir uma distribuição de probabilidades em vez de um único valor fixo. Em vez de fornecer uma única estimativa para um parâmetro do modelo, os métodos bayesianos fornecem uma distribuição de probabilidades de estimativas possíveis.
A inferência bayesiana atualiza as previsões à medida que novos dados se tornam disponíveis, o que naturalmente incorpora incerteza em todo o processo de estimativa de covariáveis. Os métodos de Monte Carlo (MCMC) da cadeia de Markov ajudam a implementar abordagens bayesianas quando as soluções matemáticas são complexas. O MCMC aborda amostras de distribuições de probabilidades complexas e de alta dimensão que não podem ser amostradas diretamente, particularmente distribuições posteriores na inferência Bayesiana.
As redes neurais bayesianas (BNNs) são uma mudança das redes neurais tradicionais, que tratam os pesos da rede como distribuições de probabilidade em vez de estimativas de ponto fixo. Essa abordagem probabilística permite a quantificação da incerteza com princípios e rigorosa. Em vez de estimativas de ponto único para pesos, elas mantêm distribuições de probabilidades sobre todos os parâmetros da rede. As previsões normalmente incluem
- estimativas de média e variância para a distribuição preditiva
- amostras da distribuição preditiva
- intervalos confiáveis derivados da distribuição
Existem várias bibliotecas populares de código aberto para implementar BNNs, como PyMC e Tensorflow-Probability.
Métodos de conjunto
A ideia central por trás da quantificação da incerteza baseada em conjunto é que, se vários modelos treinados de forma independente discordam sobre uma previsão, essa discordância indica incerteza sobre a resposta correta.4 Por outro lado, quando todos os modelos do conjunto concordam, isso sugere maior confiança na previsão. Essa intuição se traduz em medidas concretas de incerteza por meio da variância ou dispersão das previsões do conjunto.
Se f₁, f₂, ..., fₙ representarem os estimadores de N membros do conjunto para a entrada x, a incerteza poderá ser quantificada como
onde f’(x) é a média do conjunto. Treinamento de vários modelos diversos (diferentes arquiteturas, subconjuntos de dados de treinamento ou inicialização) e combinação de suas previsões. A principal desvantagem dessa abordagem é o custo computacional: ela exige treinamento e execução de vários modelos.
Previsão conforme
A previsão conforme é uma técnica para quantificação da incerteza. Ela fornece um framework independente de modelo e sem distribuição para criar intervalos de previsão (para cenários de regressão) ou conjuntos de previsão (para aplicações de classificações).3 Isso oferece garantias de cobertura válidas com o mínimo de suposições sobre o modelo ou os dados. Isso torna a previsão conforme particularmente útil ao trabalhar com modelos pré-treinados de caixa-preta.
A previsão conforme tem várias funcionalidades que a tornam amplamente aplicável. Por exemplo, ela exige apenas que os pontos de dados sejam intercambiáveis, em vez de exigir que sejam independentes e distribuídos de forma idêntica. A previsão conforme também pode ser aplicada a qualquer modelo preditivo e permite que você defina a incerteza preditiva admissível de um modelo.
Por exemplo, em uma tarefa de regressão, você pode querer atingir 95% de cobertura, o que significaria que o modelo deve produzir uma faixa onde "true" caia no intervalo de saída 95% das vezes. Essa abordagem é independente de modelo e funciona bem com classificação, regressão linear, redes neurais e uma ampla variedade de modelos de séries temporais.
Para usar a previsão conforme, divida os dados em três conjuntos: um conjunto de treinamento, um conjunto de testes de linha de base e um conjunto de calibração. O conjunto de calibração é utilizado para calcular as pontuações de não conformidade, frequentemente denominadas si. Essa pontuação mede o quanto uma previsão é incomum. Dada uma nova entrada, forme um intervalo de previsão com base nessas pontuações para garantir a cobertura.
Em uma tarefa de classificação, a pontuação de não conformidade da previsão conforme é uma medida de quanto uma nova instância se desvia das instâncias existentes no conjunto de treinamento. Isso determina se uma nova instância pertence a uma classe específica ou não. Para classificação multiclasses, isso é normalmente 1 — probabilidade de classe prevista para o rótulo específico.
Portanto, se a probabilidade prevista de uma nova instância pertencer a uma determinada classe é alta, a pontuação de não conformidade é baixa e vice-versa. Uma abordagem comum é calcular as pontuações si para cada instância no conjunto de calibração e classificar as pontuações de baixa (certa) para alta (incerta).
Para chegar a 95% de cobertura conforme, calcule o limite q onde 95% das pontuações si são mais baixas. Para novos exemplos de teste, inclua um rótulo no conjunto de previsão se seu si for menor que o limite q.
Se você exigisse uma garantia de que seu modelo tivesse 95% de cobertura conforme, obteria si pontuações médias para todas as classes. Em seguida, você encontraria um limite de pontuações si que contenham 95% dos dados. Você pode, então, ter certeza de que seu classificador identificará corretamente 95% das novas instâncias em todas as classes.
Isso é um pouco diferente da precisão do classificador, porque a previsão conforme pode identificar várias classes. Em um classificador multiclasses, a previsão conforme também mostra a cobertura para todas as classes. Você pode atribuir uma taxa de cobertura para classes individuais em vez de para todo o conjunto de treinamento.