A regressão logística estima a probabilidade de ocorrência de um evento, como voto ou não voto, com base em um determinado conjunto de dados de variáveis independentes.
Esse tipo de modelo estatístico (também conhecido como modelo logit) frequentemente é usado para classificação e análise preditiva de dados. Como o resultado é uma probabilidade, a variável dependente é limitada entre 0 e 1. Na regressão logística, uma transformação logit é aplicada à chance, isto é, a probabilidade de sucesso dividida pela probabilidade de fracasso. Isso também é comumente conhecido como chance logarítmica, ou logaritmo natural da chance, e essa função logística é representada pelas seguintes fórmulas:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
Nessa equação de regressão logística, logit(pi) é a variável dependente ou de resposta, e x é a variável independente. O parâmetro beta, ou coeficiente, nesse modelo é comumente estimado por meio de estimativa de máxima verossimilhança (MLE). Esse método testa diferentes valores de beta por meio de várias iterações para otimizar o melhor ajuste da chance logarítmica. Todas essas iterações produzem a função de verossimilhança logarítmica, e a regressão logística busca maximizar essa função para encontrar a melhor estimativa de parâmetros. Depois que o coeficiente (ou coeficientes, se houver mais de uma variável independente) ideal for encontrado, as probabilidades condicionais de cada observação poderão ser calculadas, registradas e somadas para gerar uma probabilidade prevista. Para classificação binária, uma probabilidade menor que 0,5 prevê 0, enquanto que uma probabilidade maior que 0 prevê 1. Depois que o modelo tiver sido calculado, a melhor prática é avaliar o quanto o modelo prevê a variável dependente, o que é chamado de grau de adequação. O teste de Hosmer-Lemeshow é um método popular para avaliar a adequação do modelo.
Pode ser difícil entender a chance logarítmica em uma análise de dados de regressão logística. Como resultado, é comum exponenciar as estimativas beta para transformar os resultados em uma razão de chance (OR), facilitando a interpretação dos resultados. A OR representa a chance de que um resultado ocorra dado um evento específico, em comparação com a chance de o resultado ocorrer na ausência desse evento. Se a OR for maior que 1, o evento estará associado a uma chance maior de gerar um resultado específico. Por outro lado, se a OR for menor que 1, o evento estará associado a uma chance menor de ocorrência desse resultado. Com base na equação acima, a interpretação de uma razão de chance pode ser denotada da seguinte forma: a chance de sucesso muda em exp(cB_1) vezes para cada aumento de unidade c em x. Para usar um exemplo, digamos que estivéssemos estimando a chance de sobrevivência no Titanic, dado que a pessoa era do sexo masculino, e a razão de chance para homens era de 0,0810. Interpretaríamos a razão de chance como se a chance de sobrevivência dos homens diminuísse por um fator de 0,0810 quando comparada à das mulheres, mantendo todas as outras variáveis constantes.
Tanto a regressão linear quanto a logística estão entre os modelos mais populares da ciência de dados, e ferramentas de código aberto, como o Python e R, tornam o cálculo para eles rápido e fácil.
Modelos de regressão linear são utilizados para identificar a relação entre uma variável dependente contínua e uma ou mais variáveis independentes. Quando há apenas uma variável independente e uma variável dependente, é conhecida como regressão linear simples, mas à medida que o número de variáveis independentes aumenta, é chamada de regressão linear múltipla. Para cada tipo de regressão linear, procura plotar uma linha de melhor ajuste por meio de um conjunto de pontos de dados, que normalmente é calculado usando o método dos mínimos quadrados.
Semelhante à regressão linear, a regressão logística também é usada para estimar a relação entre uma variável dependente e uma ou mais variáveis independentes, mas é usada para fazer uma previsão sobre uma variável categórica versus uma variável contínua. Uma variável categórica pode ser verdadeira ou falsa, sim ou não, 1 ou 0 etc. A unidade de medida também é diferente da regressão linear, pois ela gera uma probabilidade, mas a função logit transforma a curva S em uma linha reta.
Embora ambos os modelos sejam usados na análise de regressão para fazer previsões sobre resultados futuros, a regressão linear normalmente é mais fácil de entender. A regressão linear também não requer um tamanho de amostra tão grande quanto a regressão logística precisa de uma amostra adequada para representar valores em todas as categorias de resposta. Sem uma amostra maior e representativa, o modelo pode não ter poder estatístico suficiente para detectar um efeito significativo.
Existem três tipos de modelos de regressão logística, que são definidos com base na resposta categórica.
Dentro do aprendizado de máquina, a regressão logística pertence à família de modelos de aprendizado de máquina supervisionado. Também é considerado um modelo discriminativo, o que significa que tenta distinguir entre classes (ou categorias). Ao contrário de um algoritmo generativo, como o Naïve Bayes, ele não pode, como o nome indica, gerar informações, como uma imagem, da classe que está tentando prever (por exemplo, a imagem de um gato).
Anteriormente, mencionamos como a regressão logística maximiza a função de probabilidade logarítmica para determinar os coeficientes beta do modelo. Isso muda ligeiramente no contexto do aprendizado de máquina. Dentro do aprendizado de máquina, a probabilidade logarítmica negativa era usada como função de perda, usando o processo de gradiente descendente para encontrar o máximo global. Essa é apenas outra maneira de chegar às mesmas estimativas discutidas acima.
A regressão logística também pode ser propensa ao overfitting, particularmente quando há um alto número de variáveis do preditor dentro do modelo. A regularização normalmente é usada para penalizar grandes coeficientes dos parâmetros quando o modelo sofre de alta dimensionalidade.
O scikit-learn (link externo a ibm.com) fornece documentação valiosa para saber mais sobre o modelo de aprendizado de máquina de regressão logística.
A regressão logística é comumente usada para problemas de previsão e classificação. Alguns desses casos de uso incluem:
O IBM® Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagem, código, séries temporais e proteções.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
Explore abordagens de aprendizado supervisionado, como máquinas de vetores de suporte e classificadores probabilísticos.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.