A regressão logística é uma técnica usada em análise de dados para estimar a probabilidade de ocorrência de um evento com base em um determinado conjunto de dados de variáveis.
Esse tipo de modelo estatístico (também conhecido como modelo logit) frequentemente é usado para classificação e análise preditiva de dados.
Como o resultado é uma probabilidade, a variável dependente é limitada entre 0 e 1. Na regressão logística, uma transformação logit é aplicada à chance, isto é, a probabilidade de sucesso dividida pela probabilidade de fracasso. Isso também é comumente conhecido como chance logarítmica, ou logaritmo natural da chance, e essa função logística é representada pelas seguintes fórmulas:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
Nessa equação de regressão logística, logit(pi) é a variável dependente ou de resposta, e x é a variável independente.
O parâmetro beta, ou coeficiente, nesse modelo é comumente estimado por meio de estimativa de máxima verossimilhança (MLE). Esse método testa diferentes valores de beta por meio de várias iterações para otimizar o melhor ajuste da chance logarítmica. Todas essas iterações produzem a função de verossimilhança logarítmica, e a regressão logística busca maximizar essa função para encontrar a melhor estimativa de parâmetros.
Depois que o coeficiente (ou coeficientes, se houver mais de uma variável independente) ideal for encontrado, as probabilidades condicionais de cada observação poderão ser calculadas, registradas e somadas para gerar uma probabilidade prevista. Para classificação binária, uma probabilidade menor que 0,5 prevê 0, enquanto que uma probabilidade maior que 0 prevê 1.
Depois que o modelo tiver sido calculado, a melhor prática é avaliar o quanto o modelo prevê a variável dependente, o que é chamado de grau de adequação. O teste de Hosmer-Lemeshow é um método popular para avaliar a adequação do modelo.
Pode ser difícil entender a chance logarítmica em uma análise de dados de regressão logística.
Como resultado, é comum exponenciar as estimativas beta para transformar os resultados em uma razão de chance (OR), facilitando a interpretação dos resultados.
A OR representa a chance de que um resultado ocorra dado um evento específico, em comparação com a chance de o resultado ocorrer na ausência desse evento. Se a OR for maior que 1, o evento estará associado a uma chance maior de gerar um resultado específico.
Por outro lado, se a OR for menor que 1, o evento estará associado a uma chance menor de ocorrência desse resultado. Com base na equação acima, a interpretação de uma razão de chance pode ser denotada da seguinte forma: a chance de sucesso muda em exp(cB_1) vezes para cada aumento de unidade c em x.
Para usar um exemplo, digamos que estivéssemos estimando a chance de sobrevivência no Titanic, dado que a pessoa era do sexo masculino, e a razão de chance para homens era de 0,0810. Interpretaríamos a razão de chance como se a chance de sobrevivência dos homens diminuísse por um fator de 0,0810 quando comparada à das mulheres, mantendo todas as outras variáveis constantes.
Tanto a regressão linear quanto a logística estão entre os modelos mais populares da ciência de dados, e ferramentas de código aberto, como o Python e R, tornam o cálculo para eles rápido e fácil.
Modelos de regressão linear são utilizados para identificar a relação entre uma variável dependente contínua e uma ou mais variáveis independentes.
Quando há apenas uma variável independente e uma variável dependente, é conhecida como regressão linear simples, mas à medida que o número de variáveis independentes aumenta, é chamada de regressão linear múltipla. Para cada tipo de regressão linear, procura plotar uma linha de melhor ajuste por meio de um conjunto de pontos de dados, que normalmente é calculado usando o método dos mínimos quadrados.
Semelhante à regressão linear, a regressão logística também é usada para estimar a relação entre uma variável dependente e uma ou mais variáveis independentes, mas é usada para fazer uma previsão sobre uma variável categórica versus uma variável contínua.
Uma variável categórica pode ser verdadeira ou falsa, sim ou não, 1 ou 0 etc. A unidade de medida também é diferente da regressão linear, pois ela gera uma probabilidade, mas a função logit transforma a curva S em uma linha reta.
Embora ambos os modelos sejam usados na análise de regressão para fazer previsões sobre resultados futuros, a regressão linear normalmente é mais fácil de entender. A regressão linear também não requer um tamanho de amostra tão grande quanto a regressão logística precisa de uma amostra adequada para representar valores em todas as categorias de resposta. Sem uma amostra maior e representativa, o modelo pode não ter poder estatístico suficiente para detectar um efeito significativo.
Existem três tipos de modelos de regressão logística, que são definidos com base na resposta categórica.
Nessa abordagem, a resposta ou variável dependente é de natureza dicotômica, ou seja, tem apenas dois resultados possíveis (por exemplo, 0 ou 1). Alguns exemplos populares de seu uso incluem prever se um e-mail é spam ou não, ou se um tumor é maligno ou não. Dentro da regressão logística, essa é a abordagem mais comumente usada e, de forma mais geral, é um dos classificadores mais comuns para a classificação binária.
Nesse tipo de modelo de regressão logística, a variável dependente tem três ou mais resultados possíveis; no entanto, esses valores não têm uma ordem especificada. Por exemplo, os estúdios de cinema querem prever o gênero de filme que um espectador provavelmente verá para comercializar os filmes com mais eficiência.
Um modelo de regressão logística multinomial pode ajudar o estúdio a determinar a força da influência que a idade, o gênero e a situação de relacionamento de uma pessoa podem ter sobre o tipo de filme que ela prefere. Então, o estúdio pode orientar uma campanha publicitária de um filme específico para um grupo de pessoas que provavelmente irá assisti-lo.
Esse tipo de modelo de regressão logística é aproveitado quando a variável de resposta tem três ou mais resultados possíveis, mas, nesse caso, esses valores têm uma ordem definida. Exemplos de respostas ordinais incluem escalas de classificação de A a F ou escalas de avaliação de 1 a 5.
Dentro do aprendizado de máquina, a regressão logística pertence à família de modelos de aprendizado de máquina supervisionado. Também é considerado um modelo discriminativo, o que significa que tenta distinguir entre classes (ou categorias). Ao contrário de um algoritmo generativo, como o Naïve Bayes, ele não pode, como o nome indica, gerar informações, como uma imagem, da classe que está tentando prever (por exemplo, a imagem de um gato).
Anteriormente, mencionamos como a regressão logística maximiza a função de probabilidade logarítmica para determinar os coeficientes beta do modelo. Isso muda ligeiramente no contexto do aprendizado de máquina. Dentro do aprendizado de máquina, a probabilidade logarítmica negativa era usada como função de perda, usando o processo de gradiente descendente para encontrar o máximo global. Essa é apenas outra maneira de chegar às mesmas estimativas discutidas acima.
A regressão logística também pode ser propensa ao overfitting, particularmente quando há um alto número de variáveis do preditor dentro do modelo. A regularização normalmente é usada para penalizar grandes coeficientes dos parâmetros quando o modelo sofre de alta dimensionalidade.
O scikit-learn fornece documentação valiosa para saber mais sobre o modelo de aprendizado de máquina de regressão logística.
A regressão logística é comumente usada para problemas de previsão e classificação. Alguns desses casos de uso incluem:
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io