O que são modelos de classificação?

Funcionários de escritório trabalhando até tarde em grande edifício de escritórios

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Os modelos de classificação são um tipo de modelagem preditiva que organiza os dados em classes predefinidas de acordo com os valores das funcionalidades.

Os modelos de classificação são tipos de modelos de aprendizado de máquina que dividem os pontos de dados em grupos predefinidos chamados classes. Os classificadores são tipos de modelagem preditiva que aprendem características de classe de dados de input e aprende a atribuir classes possíveis a novos dados de acordo com essas características aprendidas.1 Algoritmos de classificação são amplamente usados em ciência de dados para prever padrões e prever resultados. De fato, eles têm uma variedade de casos de uso no mundo real, como classificação de pacientes por riscos potenciais à saúde e filtragem de e-mails de spam.

Tarefas de classificação podem ser binárias ou multiclasse. Em problemas de classificação binária, um modelo prevê entre duas classes. Por exemplo, um filtro de spam classifica e-mails como spam ou não spam. Em problemas de classificação multiclasse, os dados são distribuídos entre mais de dois rótulos de classe. Por exemplo, um classificador de imagens pode categorizar imagens de animais de estimação usando uma variedade de rótulos, como cachorro, gato, llama, ornitorrinco e outros.

Algumas fontes, especialmente on-line, referem-se à classificação como uma forma de aprendizado de máquina supervisionado. Entretanto, os classificadores não se restringem exclusivamente ao campo do aprendizado supervisionado. Abordagens de aprendizado não supervisionado para problemas de classificação têm sido um foco central em pesquisas recentes.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Como funcionam os modelos de classificação

É claro que cada algoritmo de classificação de aprendizado de máquina difere em suas operações internas. No entanto, todos seguem um processo geral de classificação de dados em duas etapas:

Aprendizado. No aprendizado supervisionado, um anotador humano atribui um rótulo a cada ponto de dados no conjunto de treinamento. Esses pontos são definidos por um conjunto de variáveis de input (ou variáveis independentes), que podem ser numéricas, cadeias de texto, funcionalidades de imagens, entre outras. Em termos matemáticos, o modelo considera cada ponto de dados como uma tupla x. Uma tupla é simplesmente uma sequência numérica ordenada representada como x = (x1, x2, x3…xn). Cada valor na tupla representa uma funcionalidade específica do ponto de dados. O modelo usa as funcionalidades de cada ponto de dados junto com seu rótulo de classe para identificar quais funcionalidades definem cada classe. Ao mapear os dados de treinamento conforme essa equação, o modelo aprende as funcionalidades gerais associadas a cada rótulo de classe.

Classificação. A segunda etapa nas tarefas de classificação é a classificação propriamente dita. Nessa fase, os usuários aplicam o modelo a um conjunto de testes composto por dados não vistos. Dados que não foram usados anteriormente são ideais para avaliar a classificação do modelo e evitar o overfitting. O modelo utiliza sua função preditiva aprendida y=f(x) para classificar os dados não vistos em classes distintas com base nas funcionalidades de cada amostra. Os usuários então avaliam a precisão do modelo de acordo com o número de amostras de teste corretamente previstas.2

Previsões

Os modelos de classificação produzem dois tipos de previsões: discretas e contínuas.

Discreto. Previsões discretas são os rótulos de classe previstos para cada ponto de dados. Por exemplo, podemos usar um preditor para classificar pacientes como diabéticos ou não diabéticos com base em dados de saúde. As classes diabéticos e não diabéticos são as previsões categóricas discretas.

Contínuo. Classificadores atribuem previsões de classe na forma de probabilidades contínuas, chamadas de confidence scores. Essas probabilidades variam entre 0 e 1, representando percentuais. Nosso modelo pode classificar um paciente como diabético com uma probabilidade de 0,82. Isso significa que o modelo acredita que o paciente tem 82% de chance de ser diabético e 18% de chance de não ser diabético.

Pesquisadores geralmente avaliam os modelos utilizando previsões discretas, enquanto empregam previsões contínuas como limiares. Um classificador ignora qualquer previsão abaixo de um determinado limiar. Por exemplo, se nosso preditor de diabetes tem um limiar de 0,4 (40%) e classifica um paciente como diabético com uma probabilidade de 0,35 (35%), o modelo ignorará esse rótulo e não atribuirá o paciente à classe diabético.3

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Métricas de avaliação

Pesquisadores e desenvolvedores utilizam uma ampla gama de métricas de avaliação para modelos de classificação. A métrica escolhida depende da tarefa específica de classificação. Todas elas medem a precisão com que um aprendiz (ou seja, classificador) prevê corretamente as classes do modelo.

As métricas de classificação utilizam uma terminologia comum. Verdadeiros positivos (VP) são aquelas amostras de dados que o modelo prevê corretamente em sua respectiva classe. Falsos positivos (FP) são aquelas instâncias de classe negativa identificadas incorretamente como casos positivos. Falsos negativos (FN) são ocorrências positivas reais erroneamente previstas como negativas. Verdadeiros negativos (NV) são as instâncias de classes negativas reais que o modelo classifica com precisão como negativas.

Precisão. Isso é chamado de valor preditivo positivo (PPV). Representa a proporção de previsões da classe positiva que realmente pertencem à classe em questão. Por exemplo, em um filtro de spam, a precisão é a proporção de mensagens que o modelo classifica como spam e que, de fato, são spam. É representada pela equação:4

Fórmula de precisão

Recuperação. Também sensibilidade ou taxa positiva verdadeira (TPR), a recuperação denota a porcentagem de instâncias de classe detectadas por um modelo. Voltando ao filtro de spam, a recuperação indica quantas mensagens de spam reais o modelo realmente classifica como spam. Ela é representada pela equação:5

Fórmula de recall

Pontuação F1. Precisão e recall podem apresentar uma relação inversa; à medida que um classificador retorna mais verdadeiros positivos (aumentando o recall), ele inevitavelmente classifica erroneamente instâncias negativas (isto é, falsos positivos), diminuindo a precisão. A pontuação F1 visa resolver esse compromisso. O F1 (ou F-score) combina efetivamente precisão e recall para representar a acurácia total do modelo por classe. Ele é representado pela equação:6

Fórmula da pontuação F

Visualização de dados

Ferramentas de visualização de dados ajudam a ilustrar descobertas na análise de dados. Cientistas de dados e pesquisadores de aprendizado de máquina usam duas ferramentas principais para visualizar o desempenho dos classificadores:

Matriz de confusão. A matriz de confusão é uma tabela cujas colunas representam os valores previstos para uma determinada classe, enquanto as linhas representam os valores reais, ou vice-versa. A célula superior esquerda indica o número de verdadeiros positivos; a célula inferior esquerda representa os falsos positivos; a célula superior direita representa os falsos negativos; e a célula inferior direita representa os verdadeiros negativos. A soma desses valores fornece o número total de previsões do modelo.7 Uma matriz de confusão para um classificador binário pode ser representada da seguinte forma:

matriz de confusão binária de amostra

Curva ROC. Uma curva de característica de operação do receptor (ROC) visualiza a proporção de verdadeiros positivos em relação aos verdadeiros negativos. O gráfico plota a taxa de verdadeiros positivos contra a taxa de verdadeiros negativos para cada limiar utilizado na classificação do modelo. A estatística de área sob a curva (AUC) surge da curva ROC. O AUC mede a probabilidade de que uma amostra positiva selecionada aleatoriamente tenha uma pontuação de confiança maior do que uma amostra negativa aleatória. Os valores de AUC variam de 0 a 1. O valor 0 indica que o modelo classifica todas as negativas com probabilidades mais altas do que as positivas, enquanto 1 significa que o modelo classifica corretamente todas as positivas com maior probabilidade.8

Tipos de algoritmos de classificação

Existem diversos tipos de algoritmos de classificação. Embora tenham casos de uso que se sobrepõem, alguns são mais indicados para aplicações específicas do que outros. A seguir, uma visão geral de três populares algoritmos de aprendizado de máquina para classificação. Todos eles podem ser implementados facilmente em Python por meio de diversas bibliotecas do scikit-learn.

Regressão logística

Fontes on-line frequentemente contrastam tarefas de classificação e regressão em aprendizado de máquina. No entanto, isso é uma simplificação excessiva. A regressão logística é um classificador probabilístico derivado dos modelos de regressão linear. A regressão linear usa uma ou mais variáveis independentes para prever o valor de uma variável dependente, cujo valor pode ser qualquer número racional contínuo. A regressão logística é uma modificação da regressão linear na qual o valor de saída (ou variável dependente) é limitado a qualquer valor entre 0 e 1. Isso é feito aplicando uma transformação logit (ou logaritmo das chances) à fórmula padrão da regressão linear.9

Equação logit para regressão logística

Modelos de regressão logística são úteis para a classificação binária em problemas de regressão multivariada. Aplicações comuns incluem a detecção de fraudes e previsões biomédicas. Por exemplo, a regressão logística foi utilizada para ajudar a prever a mortalidade de pacientes causada por trauma e doença coronariana.10

Naïve Bayes

Os classificadores Naïve Bayes (também chamados de Naive Bayes) são um tipo popular de classificador baseado no teorema de Bayes. Uma de suas principais diferenças em relação a outros classificadores é que ele calcula a probabilidade a posteriori para previsões de classe. Isso significa que o Naïve Bayes atualiza as previsões iniciais de classe (chamadas de probabilidades a priori) a cada nova entrada de dados. Por exemplo, suponha que tentamos classificar a probabilidade de um paciente desenvolver diabetes. Os dados médicos desse paciente (como pressão arterial, idade, nível de glicose no sangue, entre outros) servem como variáveis independentes. Para fazer previsões, um classificador Bayesiano calcula a prevalência atual do diabetes em uma população (probabilidade a priori) em relação à probabilidade de que os valores médicos desse paciente apareçam em alguém com diabetes (probabilidade condicional). Os classificadores Naïve Bayes seguem a equação da Regra de Bayes:11

Equação da regra de Bayes

O Naïve Bayes é classificado como um classificador generativo. Isso significa que o classificador Bayesiano, com base nos valores das variáveis de uma determinada observação, calcula qual classe tem maior probabilidade de ter gerado essa observação. Pesquisadores de processamento de linguagem natural (PLN) aplicam amplamente o Naïve Bayes para tarefas de classificação de texto, como análise de sentimento. Usando um modelo de bag of words, no qual cada palavra constitui uma variável, o classificador Naïve Bayes para análise de sentimento prevê se a classe positiva ou negativa gerou o texto em questão.12

k vizinhos mais próximos

O algoritmo K vizinhos mais próximos (KNN) mapeia pontos de dados em um espaço multidimensional. Ele então agrupa esses pontos de dados com valores de funcionalidades semelhantes em classes separadas. Para classificar novas amostras de dados, o classificador verifica os k pontos mais próximos de uma nova amostra de teste x, conta quantos membros de cada classe compõem esse subconjunto de vizinhos e retorna essa proporção como a estimativa de classe para o novo ponto de dados. Em outras palavras, o modelo atribui um novo ponto de dados à classe que representa a maioria de seus vizinhos.13

Equação da distância euclidiana

O vizinho mais próximo aproximado(ANN) é uma variante do KNN. Em espaços de dados de alta dimensão, pode se tornar computacionalmente custoso encontrar os vizinhos exatos de um determinado ponto. A redução de dimensionalidade é uma forma de resolver esse problema. O ANN é outra abordagem. Em vez de encontrar o vizinho exato de um ponto, o ANN identifica um vizinho aproximado dentro de uma determinada distância. Pesquisas recentes mostraram resultados promissores para o ANN no contexto de classificação multilabel.14

Observe que muitas dessas técnicas podem ser negativamente impactadas por valores discrepantes. Felizmente, diversas técnicas de regularização podem ajudar a lidar com esses fatores de impacto negativo. Além disso, existem muitos outros algoritmos para classificação em aprendizado de máquina. Alguns algoritmos adicionais incluem decision trees, random forests, gradient boosting e máquinas de vetor de suporte (SVM).

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

1 Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2 Jaiwei Han, Micheline Kamber e Jian Pei, Data Mining: Concepts and Techniques, 3ª edição, Morgan Kaufman, 2012.

3 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4 Ethan Zhang e Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.

5 Ethan Zhang e Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.

6 Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.

7 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

8 Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

9 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani e Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023

10 Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs e Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016, págs. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590 .

11 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad e James Curran, Introduction to Bayesian Statistics, 3ª edição, Wiley, 2016.

12 Daniel Jurafsky e James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3ª edição, 2023.

13 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

14 Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024, págs. 1−51, https://www.jmlr.org/papers/v25/23-0286.html .