O que é regressão logística?

Autora

Developer Advocate

IBM

O que é regressão logística?

A regressão logística é um algoritmo de aprendizado de máquina supervisionado em ciência de dados. É um tipo de algoritmo de classificação que prevê um resultado discreto ou categórico. Por exemplo, podemos usar um modelo de classificação para determinar se um empréstimo é aprovado ou não com base em preditores como valor da economia, renda e pontuação de crédito.

Neste artigo, mergulhamos na matemática por trás da regressão logística, um dos algoritmos de classificação mais usados em aprendizado de máquina e inteligência artificial (IA). Também nos aprofundaremos nos detalhes da análise de regressão, dos casos de uso e dos diferentes tipos de regressões logísticas. Na era da IA generativa, os fundamentos que sustentam a regressão logística ainda desempenham um papel crítico na orquestração de modelos de redes neurais complexos. A regressão logística também ainda é altamente relevante na realização de testes estatísticos no contexto da pesquisa das ciências comportamentais e sociais, e no campo da ciência de dados em geral. Podemos implementar a regressão logística facilmente usando o módulo scikit-learn no Python.

Nessa explicação, apresentamos a diferença entre regressão linear e regressão logística, os fundamentos matemáticos, diferentes tipos de regressão logística e os casos de uso associados.

Regressão logística versus regressão linear

A regressão logística, como a regressão linear, é um tipo de modelo linear que examina a relação entre variáveis preditoras (variáveis independentes) e uma variável de saída (a variável de resposta, variável-alvo ou variável dependente). A principal diferença é que a regressão linear é usada quando a saída é um valor contínuo — por exemplo, prevendo a pontuação de crédito de alguém. A regressão logística é usada quando o resultado é categórico, como se um empréstimo é aprovado ou não.

Na regressão logística, o modelo prevê a probabilidade de ocorrência de um resultado específico. Por exemplo, dado o perfil financeiro de alguém, podemos prever a probabilidade de que seu empréstimo seja aprovado. A saída do modelo é um valor entre 0 e 1. Com base em um limite (frequentemente 0,5), classificamos o resultado como "aprovado" ou "não aprovado". Em vez de traçar uma linha reta através dos dados como faríamos na regressão linear, a regressão logística ajusta uma curva em forma de S para mapear valores de entrada para uma probabilidade.

Tanto a regressão linear quanto a regressão logística usam testes estatísticos para avaliar quais variáveis do preditor afetam significativamente a saída. Técnicas como o teste t e a análise de variância (ANOVA) (ou testes de razão de verossimilhança para regressão logística) geram valores p para cada coeficiente, ajudando-nos a avaliar se a relação é estatisticamente significativa. Um valor p baixo (normalmente abaixo de 0,05) sugere que a variável contribui de forma significativa para o modelo. Também avaliamos o grau de adequação (o quão bem o modelo explica os resultados observados) usando métricas diferentes, dependendo do tipo de regressão.

À medida que construímos modelos, é importante proteger contra overfitting, onde o modelo captura ruído nos dados de treinamento e tem um desempenho ruim em novos dados. Esse risco aumenta quando temos muitas variáveis do preditor, mas um tamanho de amostra pequeno. Para lidar com esse problema, podemos aplicar a regularização, uma técnica que reduz a influência de variáveis menos importantes ao reduzir seus coeficientes. Também deve ser dada muita atenção aos valores discrepantes, pois eles podem distorcer o modelo e levar a valores p ou coeficientes enganosos. Na prática, melhoramos os modelos por meio de várias iterações de seleção de funcionalidades, testes e refinamentos.

Para contrastar os dois modelos de forma mais concreta, considere um cenário de regressão linear em que queremos prever a pontuação de crédito de alguém com base em funcionalidades como suas economias atuais. Podemos modelar isso como:

$Y_{c r e d i t s c o r e} = β_{0} + β_{1} X_{s a v i n g s}$

Economia de regressão linear versus pontuação de crédito

Detalhes técnicos da regressão logística

Assim como a regressão linear, a regressão logística é um tipo de modelo linear que se enquadra na família de modelos lineares generalizados (GLMs). Como no exemplo anterior, se quisermos representar a probabilidade de aprovar ou não, aplicamos a função linear.

$Y_{a p p r o v a l} = β_{0} + β_{1} X_{s a v i n g s}$

Como a função linear pressupõe uma relação linear, à medida que os valores de X mudam, Y pode assumir um valor de (-inf, inf). As probabilidades, como sabemos, estão confinadas a [0,1]. Usando esse princípio do modelo linear, não podemos modelar diretamente as probabilidades de um resultado binário. Em vez disso, precisamos de um modelo logístico para entender as probabilidades. Portanto, queremos aplicar uma transformação à entrada para que o resultado possa ser confinado. Essa transformação é conhecida como equação de regressão logística. Essa equação pode parecer complexa, mas vamos detalhá-la passo a passo para ver como ela é derivada na seção a seguir.

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

Aprovação de empréstimo por valor da economia

A transformação sigmoide nos permite fazer uma previsão binária para o caso de uso anterior. Após aplicar a transformação, o valor de X pode assumir (-inf, inf), e y ficará confinado a [0,1]

Para entender a função de regressão logística (ou a função sigmoide), precisamos de uma base sólida nos seguintes conceitos:

Chance, chance logarítmica e razão de chance
Coeficientes da regressão logística
Estimativas de probabilidade máxima (MLE)

Chance, chance logarítmica e razão de chance

Chance

O logaritmo da razão das probabilidades é conhecido como função logit e forma a base da regressão logística.

Como não podemos modelar probabilidades diretamente usando uma função linear (porque as probabilidades são limitadas entre 0 e 1), em vez disso trabalhamos com a chance. Embora tanto a probabilidade quanto a chance representem a probabilidade de um resultado, elas diferem na definição:

A probabilidade mede a possibilidade de um evento ocorrer entre todos os resultados possíveis.

Um gráfico minimalista com círculos azuis e vermelhos em um quadrado branco.

A chance compara a possibilidade de um evento ocorrer com a possibilidade de ele não ocorrer.

Chance logarítmica

Seja p(x) a probabilidade de um resultado. Então, a chance de x é definida como:

$o d d s (x) = \frac{p (x)}{1 - p (x)}$

Vejamos um exemplo concreto:

Suponha que uma cesta contenha três maçãs e cinco laranjas.

- A probabilidade de apanhar uma laranja é de 5/(3+5) = 0,625

- As chances de escolher uma laranja são de 5/3 ≈ 1,667

Isso significa que escolher uma laranja é ≈1,667 vezes mais provável do que escolher uma maçã. Por outro lado, a chance de escolher uma maçã são de 3/5 = 0,6, que é menor que 1, indicando que o resultado (escolher uma maçã) é menos provável. Seguindo a equação de chance, também podemos pensar em chance como a probabilidade de um resultado ocorrer sobre 1 - probabilidade de ocorrência do resultado. Portanto, as chances de escolher uma laranja são = P(laranjas)/(1-P(laranjas))=0,625/(1-0,625)≈1,667

A chance pode variar de 0 ao infinito. Um valor de chance maior que 1 indica um resultado favorável, menos de 1 indica um resultado desfavorável e igual a 1 significa que o evento tem tanta probabilidade de ocorrer quanto de não ocorrer.

No entanto, a chance não é simétrica em torno de 1. Por exemplo, a chance de 2 e 0,5 representa “duas vezes mais provável” e “metade da probabilidade”, mas estão em escalas numéricas muito diferentes. Para lidar com esse desequilíbrio, tomamos o logaritmo da chance, que transforma a escala ilimitada [0, ∞) de chance na linha numérica real (–∞, ∞). Isso é conhecido como log-odds (chance logarítmica), ou logit, e é a base do modelo de regressão logística.

Definimos a chance logarítmica como:

$\log (\frac{p (x)}{1 - p (x)})$

Essa transformação nos permite expressar a chance logarítmica como uma função linear da entrada:

$\log (\frac{p (x)}{1 - p (x)}) = β_{0} + β_{1} \cdot x_{1}$

Podemos, então, exponenciar ambos os lados para voltar à chance:

$\frac{p (x)}{1 - p (x)} = e^{β_{0} + β_{1} \cdot x_{1}}$

Resolvendo para $p (x)$ temos a função sigmoide, que ajuda a garantir que o valor previsto fique entre 0 e 1:

$p (x) = \frac{e^{β_{0} + β_{1} \cdot x_{1}}}{1 + e^{β_{0} + β_{1} \cdot x_{1}}}$

Essa transformação permite que a regressão logística produza probabilidades válidas, mesmo que as estejamos modelando usando uma função linear abaixo.

Razão de chance

Por fim, vamos apresentar a razão de chances, um conceito que ajuda a interpretar o efeito dos coeficientes do modelo. A razão de chances nos diz como as chance mudam quando a variável de entrada x1 aumenta em uma unidade.

Digamos que a chance do evento seja:

$o d d s (x_{1}) = e^{β_{0} + β_{1} \cdot x_{1}}$

Se aumentarmos x1 em uma unidade, a nova chance se tornará:

$o d d s (x_{1} + 1) = e^{β_{0} + β_{1} (x_{1} + 1)} = e^{β_{0} + β_{1} x_{1}} \cdot e^{β_{1}}$

Isso significa que para cada aumento de uma unidade em x1, a chance é multiplicada por eb1 . Esse multiplicador é a razão de chance.

- Se b1>1, então a chance aumenta (o evento se torna mais provável)

- Se b1<1, então a chance diminui (os eventos se tornam prováveis)

- Se b1=1, a razão de chances é 0, o que significa que a entrada não tem efeito sobre as chances

A razão de chances dá à regressão logística sua interpretabilidade (ela informa como as chances de um evento mudam com base nas entradas), o que é útil em muitos cenários aplicados, como saúde, marketing e finanças. No entanto, não podemos interpretar os coeficientes da mesma forma que interpretamos os de regressão linear. Na próxima seção, vamos dar uma olhada mais de perto em como os coeficientes são determinados e interpretados.

Coeficientes de regressão logística

Preditores contínuos

Lembrete de antes: na regressão linear, os coeficientes são fáceis de interpretar. Veja um exemplo de uma regressão linear com variáveis contínuas: para um aumento de uma unidade na funcionalidade de entrada x, resulta em um aumento de b1 unidade no resultado previsto y. Essa relação direta funciona porque a regressão linear assume uma taxa constante de alteração entre as funcionalidades de entrada e o destino. Sua saída é ilimitada e cresce linearmente.

No entanto, a regressão logística não modela y diretamente — ela modela a probabilidade de y por meio da chance logarítmica (o logaritmo da chance). Por isso, não podemos dizer que o aumento de uma unidade em x resulta em uma mudança de unidade constante em y. Em vez disso, interpretamos o coeficiente em termos de seu efeito sobre a chance logarítmica e, por extensão, sobre a chance e a probabilidade do resultado.

Mais especificamente, na regressão logística:

Um coeficiente positivo significa que a chance logarítmica do resultado aumenta à medida que a entrada aumenta. Isso corresponde a um aumento na probabilidade.
Um coeficiente negativo significa que a chance logarítmica diminui à medida que a entrada aumenta. Isso corresponde a uma diminuição na probabilidade.
Um coeficiente de zero significa que a variável não tem efeito sobre o resultado.

É importante ressaltar que a magnitude do coeficiente reflete o quão forte é essa influência, e a relação de chance (que é a exponencial do coeficiente) nos diz o quanto a chance muda para um aumento de uma unidade na variável.

Preditores categóricos

Assim como outros algoritmos de aprendizado de máquina, podemos incorporar variáveis categóricas para fazer previsões para regressão. Quando trabalhamos com variáveis categóricas ou discretas, frequentemente utilizamos técnicas de engenharia de funcionalidades, como codificação one-shot ou variáveis fictícias para convertê-las em um formato binário que o modelo pode utilizar.

Por exemplo, usando o mesmo conceito de antes, digamos que queiramos prever se alguém foi aprovado para um empréstimo ( $y = 1$ para aprovados, $y = 0$ para não aprovados) com base na fato de ele ainda ter uma dívida existente:

- Deixe $x = 0$ significa que eles não têm dívidas existentes

- Deixe $x = 1$ significa que eles têm dívidas existentes

Nossa chance logarítmica de $y = a p p r o v a l$ seria $y = b_{0} + b_{1} * x_{1}$

O coeficiente $b_{1}$ , representa a mudança na chance logarítmica de ser aprovado quando a pessoa tem uma dívida existente, em comparação com alguém que não tem.

Para tornar isso mais interpretável, podemos exponenciar b1 para obter a razão de chance:

Se $b_{1}$ é positivo, $e$ à potência de $b_{1}$ é maior que 1, o que significa que ter dívidas existentes aumenta a chance de ser aprovado.
Se $b_{1}$ é negativo, $e$ à potência de $b_{1}$ é menor que 1, o que significa que ter dívidas existentes diminui a chance de aprovação.
Se $b_{1}$ é 0, $e$ à potência de $b_{1}$ é 1, o que significa que a situação da dívida não tem efeito.

Portanto, embora percamos a interpretação direta dos coeficientes da regressão linear, a regressão logística ainda oferece insights ricos e interpretáveis, especialmente quando os enquadramos em termos de chance e mudanças de probabilidade. A magnitude do aumento ou diminuição na probabilidade em função de $x$ não corresponde a uma unidade de aumento em $x$ , mas depende de onde $x$ está em um determinado ponto.

AI Academy

Coloque a IA para trabalhar no serviço ao cliente

Veja como a IA generativa pode encantar os clientes com uma experiência mais integrada e aumentar a produtividade da organização nessas três áreas importantes: autoatendimento, agentes humanos e operações da central de contato.

Acessar o episódio

Estimativa de máxima verossimilhança

Os coeficientes na regressão logística, $β 0$ e $β_{1}$ , são estimados por meio da estimativa de máxima verossimilhança (MLE). A ideia central por trás da MLE é encontrar os parâmetros que tornam os dados observados mais "prováveis" sob o modelo de regressão logística.

Na regressão logística, modelamos a probabilidade de que a variável-alvo $y_{1}$ é 1 (por exemplo, "aprovado") dada uma entrada $x_{1}$ usando a função logística (sigmoide):

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

A MLE tenta diferentes combinações de $b_{0}$ e $b_{1}$ , e para cada combinação, pergunta: Qual é a probabilidade de vermos os resultados reais em nossos dados, dados esses parâmetros?

Isso é capturado usando a função de verossimilhança, que multiplica as probabilidades previstas para cada ponto de dados:

$L (β_{0}, β_{1}) = \prod_{i = 1}^{n} p {(x_{i})}^{y_{i}} \cdot (1 - p (x_{i}))^{1 - y_{i}}$

- Se $y_{1} = 1$ =1 (“aprovado”), queremos que a probabilidade prevista do modelo $P (x_{1})$ esteja tão próxima quanto 1. O termo $p (x i)^{y} i$ lida com isso. Se os dados reais observados de y1 forem realmente "aprovados" ou 1, o termo será 1.

- Se $y_{1} = 0$ =0, queremos que a probabilidade prevista esteja próxima de 0. O termo $(1 - p (x_{i}))^{1 - y_{i}}$ lida com esse caso. Se os dados reais observados de $y 1$ é "não aprovado", ou 0, o valor será $p (x_{i})$ estarão próximos de 0, portanto $1 - p (x_{i})$ estarão próximos de 1.

Assim, para cada ponto de dados, multiplicamos $p (x 1)$ OU $1 - p (x_{i})$ , dependendo de o rótulo real ser 1 ou 0. O produto de todos os exemplos nos fornece um único número: a verossimilhança de ver o conjunto de dados inteiro sob o modelo atual. Como podemos ver, se os resultados previstos (usando parâmetros $b_{0}$ e $b_{1}$ ) em conformidade com os dados observados, o valor da verossimilhança será maximizado. O motivo da multiplicação de todas as probabilidades é que assumimos que os resultados são independentes uns dos outros. Em outras palavras, a chance de aprovação de uma pessoa não deve influenciar a chance de aprovação de outra pessoa.

Como esse produto pode ficar extremamente pequeno, geralmente trabalhamos com a probabilidade logarítmica, que transforma o produto em uma soma e é mais fácil de calcular e otimizar.

Para encontrar os valores de $b_{0}$ e $b_{1}$ que maximizam a probabilidade logarítmica, usamos o gradiente descendente, um algoritmo de otimização iterativo. Em cada etapa, calculamos como a probabilidade logarítmica muda em relação a cada parâmetro (por exemplo, seu gradiente) e, em seguida, atualizamos os parâmetros ligeiramente na direção que aumenta a probabilidade. Com o tempo, esse processo converge para os valores do $b_{0}$ e $b_{1}$ que melhor se ajustam aos dados.

Tipos de regressão logística

Existem três tipos de modelos de regressão logística, que são definidos com base na resposta categórica.

Regressão logística binária: nessa abordagem, a resposta ou variável dependente é de natureza dicotômica, ou seja, tem apenas dois resultados possíveis (por exemplo, 0 ou 1). Alguns exemplos populares de seu uso incluem prever se um e-mail é spam ou não, ou se um tumor é maligno ou não. Dentro da regressão logística, essa é a abordagem mais comumente usada e, de forma mais geral, é um dos classificadores mais comuns para classificação binária.
Regressão logística multinomial: nesse tipo de modelo de regressão logística, a variável dependente tem três ou mais resultados possíveis; no entanto, esses valores não têm uma ordem especificada. Por exemplo, os estúdios de cinema querem prever o gênero de filme que um espectador provavelmente verá para comercializar os filmes com mais eficiência. Um modelo de regressão logística multinomial pode ajudar o estúdio a determinar a força da influência que a idade, o gênero e a situação de relacionamento de uma pessoa podem ter sobre o tipo de filme que ela prefere. Então, o estúdio pode orientar uma campanha publicitária de um filme específico para um grupo de pessoas que provavelmente irá assisti-lo.
Regressão logística ordinal: esse tipo de modelo de regressão logística é aproveitado quando a variável de resposta tem três ou mais resultados possíveis, mas, nesse caso, esses valores têm uma ordem definida. Exemplos de respostas ordinais incluem escalas de classificação de A a F ou escalas de avaliação de 1 a 5.

Casos de uso de regressão logística

A regressão logística é comumente usada para problemas de previsão e classificação. Alguns desses casos de uso incluem:

Detecção de fraude: os modelos de regressão logística podem ajudar as equipes a identificar anomalias nos dados, que são preditivas de fraudes. Certos comportamentos ou características podem ter uma maior associação com atividades fraudulentas, o que é particularmente útil para instituições bancárias e outras instituições financeiras na proteção de seus clientes. As empresas baseadas em SaaS também começaram a adotar essas práticas para eliminar contas de usuários falsas de seus conjuntos de dados ao conduzir análises de dados sobre o desempenho dos negócios.
Previsão de doenças: na medicina, essa abordagem de análise de dados pode ser usada para prever a verossimilhança de doenças ou enfermidades para uma determinada população. As organizações de saúde podem estabelecer cuidados preventivos para indivíduos que apresentam maior propensão a doenças específicas.
Previsão de rotatividade: comportamentos específicos podem ser indicativos de rotatividade em diferentes funções de uma organização. Por exemplo, equipes de recursos humanos e gerenciamento podem querer saber se há pessoas de alto desempenho na empresa que correm o risco de deixar a organização. Esse tipo de insight pode gerar conversas para entender áreas problemáticas dentro da empresa, como cultura ou remuneração. Ou então, a organização de vendas pode querer saber quais de seus clientes correm o risco de levar seus negócios para outro lugar. Isso pode levar as equipes a criar uma estratégia de retenção para evitar a perda de receita.

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

O que é regressão logística?

Autora

O que é regressão logística?

Regressão logística versus regressão linear

Detalhes técnicos da regressão logística

Chance, chance logarítmica e razão de chance

Chance

Chance logarítmica

Razão de chance

Coeficientes de regressão logística

Preditores contínuos

Preditores categóricos

Coloque a IA para trabalhar no serviço ao cliente

Estimativa de máxima verossimilhança

Tipos de regressão logística

Casos de uso de regressão logística

Recursos