O que é uma matriz de confusão?

19 de janeiro de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

A matriz de confusão ajuda a avaliar o desempenho do modelo de classificação no aprendizado de máquina comparando os valores previstos com os valores reais de um conjunto de dados.

.

Uma matriz de confusão (ou matriz de erro) é um método de visualização para resultados de algoritmo classificador. Mais especificamente, é uma tabela que decompõe o número de instâncias da verdade fundamental de uma classe específica em relação ao número de instâncias de classes previstas. As matrizes de confusão são uma das várias métricas de avaliação que medem o desempenho de um modelo de classificação. Podem ser utilizadas para calcular uma série de outras métricas de desempenho do modelo, como precisão e recall, entre outras.

Matrizes de confusão podem ser utilizadas com qualquer algoritmo classificador, como Naïve Bayes, modelos de regressão logística árvores de decisão e assim por diante. Devido à sua ampla aplicabilidade em modelos de ciência de dados e aprendizado de máquina, muitos pacotes e bibliotecas vêm carregados previamente com funções para criar matrizes de confusão, como o módulo sklearn.metrics do scikit-learn para Python.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

O layout da matriz de confusão

Na matriz de confusão, as colunas representam os valores previstos de uma determinada classe, enquanto as linhas representam os valores reais (ou seja, a verdade fundamental) de uma determinada classe, ou vice-versa. Observe que o inverso também aparece na pesquisa. Essa estrutura de grade é uma ferramenta conveniente para visualizar a precisão da classificação do modelo, exibindo o número de previsões corretas e incorretas de todas as classes, uma ao lado da outra.

Um modelo de matriz de confusão padrão para um classificador binário pode ter esta aparência:

A caixa superior esquerda informa o número de positivos verdadeiros (TP), sendo o número de previsões corretas da classe positiva. A caixa abaixo apresenta falsos positivos (FP), essas instâncias de classe negativa identificadas incorretamente como casos positivos. São também chamados de erros do tipo I em estatísticas. A caixa superior direita apresenta o número de falsos negativos (FN), as instâncias positivas reais previstas incorretamente como negativas. Finalmente, a caixa inferior direita exibe o número de verdadeiros negativos (VN), ou as instâncias de classe negativa reais previstas com precisão. O total de cada um desses valores apresentaria o número total de previsões do modelo.1

É claro que esse modelo é para um problema de classificação binária rudimentar. A matriz de confusão também pode visualizar resultados para problemas de classificação multiclasses. Por exemplo, imagine que estamos desenvolvendo um modelo de classificação de espécies como parte de um programa de conservação da vida marinha. O modelo prevê as espécies de peixes. Uma matriz de confusão para um problema de classificação multiclasses poderia ter a seguinte aparência:

Todas as caixas diagonais indicam verdadeiros positivos previstos. As outras caixas informam quantidades de falsos positivos, falsos negativos e verdadeiros negativos, dependendo da classe escolhida para focar.

Uso da matriz de confusão para avaliação de modelos

Dada a sua visualização facilmente acessível dos resultados preditivos do classificador, a matriz de confusão é útil para calcular outras métricas de avaliação de modelos. Os valores podem ser simplesmente extraídos da matriz e inseridos em diversas equações para medir o desempenho do modelo.

Precisão

A precisão do modelo não é uma métrica de avaliação totalmente informativa para classificadores. Por exemplo, imagine que executamos um classificador em um conjunto de dados de cem instâncias. A matriz de confusão do modelo mostra apenas um falso negativo e nenhum falso positivo; o modelo classifica corretamente todas as outras instâncias de dados. Portanto o modelo tem uma precisão de 99%. Embora aparentemente desejável, alta precisão não é, por si só, um indicativo de excelente desempenho do modelo. Por exemplo, digamos que nosso modelo vise classificar doenças altamente contagiosas. Essa classificação incorreta de 1% representa um risco enorme. Assim, outras métricas de avaliação podem ser utilizadas para apresentar uma imagem melhor do desempenho do algoritmo de classificação.

Precisão e recall

A precisão é a proporção de previsões positivas de classe que realmente pertencem à classe em questão.2 Outra forma de entender a precisão é que ela mede a probabilidade de uma instância escolhida aleatoriamente pertencer a uma determinada classe.3 A precisão também pode ser chamada de valor previsto positivo (PPV). É representado pela equação:

O recall denota a porcentagem de instâncias de classe detectadas por um modelo.4 Em outras palavras, indica a proporção de previsões positivas para uma determinada classe entre todas as instâncias reais dessa classe.5 O recall também é conhecido como sensibilidade ou taxa de verdadeiros positivos (TPR) e é representado pela equação:

Pontuação F1

Às vezes, precisão e recall podem compartilhar uma relação inversa. À medida que um modelo aumenta o recall retornando mais instâncias de classe reais (ou seja, verdadeiros positivos), o modelo inevitavelmente classificará incorretamente também as não instâncias (ou seja, falsos positivos), dessa forma diminuindo a precisão.6 A pontuação F1 tenta combinar precisão e recall para resolver essa compensação.

A pontuação F1, também conhecida como F-score, F-measure ou média harmônica de precisão e recall, combina precisão e recall para representar a precisão total de classe de um modelo. Utilizando-se esses dois valores, pode-se calcular a pontuação F1 com a equação, onde P denota precisão (PPV) e R denota recall (sensibilidade):

A pontuação F1 é particularmente útil com conjuntos de dados desequilibrados, nos quais a compensação entre precisão e recuperação pode ser mais aparente. Por exemplo, digamos que tenhamos um classificador que prevê a probabilidade de uma doença rara. Um modelo que prevê que ninguém em nosso conjunto de dados de teste tem a doença pode ter uma precisão perfeita, mas recall zero. Enquanto isso, um modelo que prevê que todos em nosso conjunto de dados têm a doença retornaria um recall perfeito, mas uma precisão igual à porcentagem de pessoas que realmente têm a doença (por exemplo 0,00001% se apenas um em cada dez milhões tiver a doença). A pontuação F1 é um meio de equilibrar esses dois valores para ter uma visão mais holística do desempenho de um classificador.7

Alguns pesquisadores criticam o uso da pontuação F1 como métrica de desempenho. Esses argumentos normalmente afirmam que a pontuação F1 dá o mesmo peso à precisão e ao recall, que podem não ser métricas de desempenho igualmente importantes para todos os conjuntos de dados.8 Em resposta, os pesquisadores ofereceram variantes modificadas da pontuação F1.9

Medidas condicionais

Medidas condicionais indicam a taxa de precisão de um modelo para detectar uma determinada classe ou não classe. O recall, também conhecido como taxa verdadeiramente positiva (TPR) ou sensibilidade, é uma dessas medidas, indicando a proporção de previsões positivas de classes em relação a todas as instâncias de classes reais. Especificidade, ou taxa de verdadeiros negativos (TNR), é a outra medida condicional. Mede a proporção de previsões negativas corretas de não instâncias reais de uma determinada classe. Pode-se calcular a especificidade com a equação:10

Taxa de falsos positivos

A especificidade ajuda a calcular a taxa de falsos positivos (FPR) de um modelo. Outras visualizações de avaliação de classificadores, especialmente a curva ROC e a AUC, utilizam FPR. FPR é a probabilidade de que um modelo classifique falsamente uma não instância de uma determinada classe como parte dessa classe. Assim, de acordo com seu nome, representa a taxa na qual um modelo retorna falsos positivos, conhecidos como erros do tipo I em estatística.

Enquanto os erros do tipo I se referem a falsos positivos, os erros do tipo II denotam falsos negativos, instâncias reais de uma determinada classe classificadas incorretamente como não fazendo parte dessa classe. Por seu nome, a taxa de falsos negativos (FNR) denota a probabilidade de que um modelo classifique incorretamente uma instância de classe real como não fazendo parte dessa classe. Assim como a FPR corresponde à especificidade, a FNR corresponde à sensibilidade:

Observe que a FNR geralmente não é utilizada na literatura porque exige o conhecimento do número total de instâncias reais de uma determinada classe, o que pode permanecer desconhecido em conjuntos de dados de teste não vistos.11

Métricas incondicionais

Métricas incondicionais são aquelas que representam as chances de uma classe específica ocorrer ou não de acordo com o modelo. Precisão, ou valor previsto positivo (PPV), é uma métrica incondicional. Como mencionado, ela mede a probabilidade de que uma instância escolhida pertença a uma determinada classe. A outra métrica incondicional, o valor previsto negativo (VPL), é a probabilidade de que uma instância escolhida não pertença a essa classe. Essencialmente, ambas as métricas incondicionais tentam responder se uma instância escolhida aleatoriamente pertencerá a uma classe específica ou não. Pode-se calcular o VPN com a equação:12

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use IA para trabalhar em sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

1 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2018.

2 Ethan Zhang and Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.

3 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4 Ethan Zhang and Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.

5 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

6 Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.

7 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

8 David Hand and Peter Christen, "A note on using the F-measure for evaluating record linkage algorithms," Statistics and Computing, Vol. 28, 2018, pp. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .

9 David Hand, Peter Christen, and Nishadi Kirielle, "F*: an interpretable transformation of the F-measure," Machine Learning, Vol. 110, 2021, pp. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco and Giuseppe Jurman, "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation," BMC Genomics, Vol. 21, 2020,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.

.

10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

11 Allen Downey, Think Stats, 2nd edition, O’Reilly, 2014.

12 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.