O que é regressão logística?

O que é regressão logística?

A regressão logística estima a probabilidade de ocorrência de um evento, como voto ou não voto, com base em um determinado conjunto de dados de variáveis independentes.

Esse tipo de modelo estatístico (também conhecido como modelo logit) frequentemente é usado para classificação e análise preditiva de dados. Como o resultado é uma probabilidade, a variável dependente é limitada entre 0 e 1. Na regressão logística, uma transformação logit é aplicada à chance, isto é, a probabilidade de sucesso dividida pela probabilidade de fracasso. Isso também é comumente conhecido como chance logarítmica, ou logaritmo natural da chance, e essa função logística é representada pelas seguintes fórmulas:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Nessa equação de regressão logística, logit(pi) é a variável dependente ou de resposta, e x é a variável independente. O parâmetro beta, ou coeficiente, nesse modelo é comumente estimado por meio de estimativa de máxima verossimilhança (MLE). Esse método testa diferentes valores de beta por meio de várias iterações para otimizar o melhor ajuste da chance logarítmica. Todas essas iterações produzem a função de verossimilhança logarítmica, e a regressão logística busca maximizar essa função para encontrar a melhor estimativa de parâmetros. Depois que o coeficiente (ou coeficientes, se houver mais de uma variável independente) ideal for encontrado, as probabilidades condicionais de cada observação poderão ser calculadas, registradas e somadas para gerar uma probabilidade prevista. Para classificação binária, uma probabilidade menor que 0,5 prevê 0, enquanto que uma probabilidade maior que 0 prevê 1. Depois que o modelo tiver sido calculado, a melhor prática é avaliar o quanto o modelo prevê a variável dependente, o que é chamado de grau de adequação. O teste de Hosmer-Lemeshow é um método popular para avaliar a adequação do modelo.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Interpretação da regressão logística

Pode ser difícil entender a chance logarítmica em uma análise de dados de regressão logística. Como resultado, é comum exponenciar as estimativas beta para transformar os resultados em uma razão de chance (OR), facilitando a interpretação dos resultados. A OR representa a chance de que um resultado ocorra dado um evento específico, em comparação com a chance de o resultado ocorrer na ausência desse evento. Se a OR for maior que 1, o evento estará associado a uma chance maior de gerar um resultado específico. Por outro lado, se a OR for menor que 1, o evento estará associado a uma chance menor de ocorrência desse resultado. Com base na equação acima, a interpretação de uma razão de chance pode ser denotada da seguinte forma: a chance de sucesso muda em exp(cB_1) vezes para cada aumento de unidade c em x. Para usar um exemplo, digamos que estivéssemos estimando a chance de sobrevivência no Titanic, dado que a pessoa era do sexo masculino, e a razão de chance para homens era de 0,0810. Interpretaríamos a razão de chance como se a chance de sobrevivência dos homens diminuísse por um fator de 0,0810 quando comparada à das mulheres, mantendo todas as outras variáveis constantes.

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Regressão linear vs regressão logística

Tanto a regressão linear quanto a logística estão entre os modelos mais populares da ciência de dados, e ferramentas de código aberto, como o Python e R, tornam o cálculo para eles rápido e fácil.

Modelos de regressão linear são utilizados para identificar a relação entre uma variável dependente contínua e uma ou mais variáveis independentes. Quando há apenas uma variável independente e uma variável dependente, é conhecida como regressão linear simples, mas à medida que o número de variáveis independentes aumenta, é chamada de regressão linear múltipla. Para cada tipo de regressão linear, procura plotar uma linha de melhor ajuste por meio de um conjunto de pontos de dados, que normalmente é calculado usando o método dos mínimos quadrados.

Semelhante à regressão linear, a regressão logística também é usada para estimar a relação entre uma variável dependente e uma ou mais variáveis independentes, mas é usada para fazer uma previsão sobre uma variável categórica versus uma variável contínua. Uma variável categórica pode ser verdadeira ou falsa, sim ou não, 1 ou 0 etc. A unidade de medida também é diferente da regressão linear, pois ela gera uma probabilidade, mas a função logit transforma a curva S em uma linha reta.

Embora ambos os modelos sejam usados na análise de regressão para fazer previsões sobre resultados futuros, a regressão linear normalmente é mais fácil de entender. A regressão linear também não requer um tamanho de amostra tão grande quanto a regressão logística precisa de uma amostra adequada para representar valores em todas as categorias de resposta. Sem uma amostra maior e representativa, o modelo pode não ter poder estatístico suficiente para detectar um efeito significativo.

Tipos de regressão logística

Existem três tipos de modelos de regressão logística, que são definidos com base na resposta categórica.

  • Regressão logística binária: nessa abordagem, a resposta ou variável dependente é de natureza dicotômica, ou seja, tem apenas dois resultados possíveis (por exemplo, 0 ou 1). Alguns exemplos populares de seu uso incluem prever se um e-mail é spam ou não, ou se um tumor é maligno ou não. Dentro da regressão logística, essa é a abordagem mais comumente usada e, de forma mais geral, é um dos classificadores mais comuns para a classificação binária.
  • Regressão logística multinomial: nesse tipo de modelo de regressão logística, a variável dependente tem três ou mais resultados possíveis; no entanto, esses valores não têm uma ordem especificada. Por exemplo, os estúdios de cinema querem prever o gênero de filme que um espectador provavelmente verá para comercializar os filmes com mais eficiência. Um modelo de regressão logística multinomial pode ajudar o estúdio a determinar a força da influência que a idade, o gênero e a situação de relacionamento de uma pessoa podem ter sobre o tipo de filme que ela prefere. Então, o estúdio pode orientar uma campanha publicitária de um filme específico para um grupo de pessoas que provavelmente irá assisti-lo.
  • Regressão logística ordinal: esse tipo de modelo de regressão logística é aproveitado quando a variável de resposta tem três ou mais resultados possíveis, mas, nesse caso, esses valores têm uma ordem definida. Exemplos de respostas ordinais incluem escalas de classificação de A a F ou escalas de avaliação de 1 a 5.

Regressão logística e aprendizado de máquina

Dentro do aprendizado de máquina, a regressão logística pertence à família de modelos de aprendizado de máquina supervisionado. Também é considerado um modelo discriminativo, o que significa que tenta distinguir entre classes (ou categorias). Ao contrário de um algoritmo generativo, como o Naïve Bayes, ele não pode, como o nome indica, gerar informações, como uma imagem, da classe que está tentando prever (por exemplo, a imagem de um gato).

Anteriormente, mencionamos como a regressão logística maximiza a função de probabilidade logarítmica para determinar os coeficientes beta do modelo. Isso muda ligeiramente no contexto do aprendizado de máquina. Dentro do aprendizado de máquina, a probabilidade logarítmica negativa era usada como função de perda, usando o processo de gradiente descendente para encontrar o máximo global. Essa é apenas outra maneira de chegar às mesmas estimativas discutidas acima.

A regressão logística também pode ser propensa ao overfitting, particularmente quando há um alto número de variáveis do preditor dentro do modelo. A regularização normalmente é usada para penalizar grandes coeficientes dos parâmetros quando o modelo sofre de alta dimensionalidade.

O scikit-learn (link externo a ibm.com) fornece documentação valiosa para saber mais sobre o modelo de aprendizado de máquina de regressão logística.

Casos de uso de regressão logística

A regressão logística é comumente usada para problemas de previsão e classificação. Alguns desses casos de uso incluem:

  • Detecção de fraudes: os modelos de regressão logística podem ajudar as equipes a identificar anomalias nos dados, que são preditivas de fraudes. Certos comportamentos ou características podem ter uma maior associação com atividades fraudulentas, o que é particularmente útil para instituições bancárias e outras instituições financeiras na proteção de seus clientes. As empresas baseadas em SaaS também começaram a adotar essas práticas para eliminar contas de usuários falsas de seus conjuntos de dados ao conduzir análises de dados sobre o desempenho dos negócios.
  • Previsão de doenças: na medicina, essa abordagem analítica pode ser usada para prever a probabilidade de doenças ou enfermidades para uma determinada população. As organizações de saúde podem estabelecer cuidados preventivos para indivíduos que apresentam maior propensão a doenças específicas.
  • Previsão de rotatividade: comportamentos específicos podem ser indicativos de rotatividade em diferentes funções de uma organização. Por exemplo, equipes de recursos humanos e gerenciamento podem querer saber se há pessoas de alto desempenho na empresa que correm o risco de deixar a organização; esse tipo de insight pode estimular conversas para entender áreas problemáticas dentro da empresa, como cultura ou remuneração. Ou então, a organização de vendas pode querer saber quais de seus clientes correm o risco de levar seus negócios para outro lugar. Isso pode levar as equipes a criar uma estratégia de retenção para evitar a perda de receita.
Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real