A regressão logística é um algoritmo de aprendizado de máquina supervisionado em ciência de dados. É um tipo de algoritmo de classificação que prevê um resultado discreto ou categórico. Por exemplo, podemos usar um modelo de classificação para determinar se um empréstimo é aprovado ou não com base em preditores como valor da economia, renda e pontuação de crédito.
Neste artigo, mergulhamos na matemática por trás da regressão logística, um dos algoritmos de classificação mais usados em aprendizado de máquina e inteligência artificial (IA). Também nos aprofundaremos nos detalhes da análise de regressão, dos casos de uso e dos diferentes tipos de regressões logísticas. Na era da IA generativa, os fundamentos que sustentam a regressão logística ainda desempenham um papel crítico na orquestração de modelos de redes neurais complexos. A regressão logística também ainda é altamente relevante na realização de testes estatísticos no contexto da pesquisa das ciências comportamentais e sociais, e no campo da ciência de dados em geral. Podemos implementar a regressão logística facilmente usando o módulo scikit-learn no Python.
Nessa explicação, apresentamos a diferença entre regressão linear e regressão logística, os fundamentos matemáticos, diferentes tipos de regressão logística e os casos de uso associados.
A regressão logística, como a regressão linear, é um tipo de modelo linear que examina a relação entre variáveis preditoras (variáveis independentes) e uma variável de saída (a variável de resposta, variável-alvo ou variável dependente). A principal diferença é que a regressão linear é usada quando a saída é um valor contínuo — por exemplo, prevendo a pontuação de crédito de alguém. A regressão logística é usada quando o resultado é categórico, como se um empréstimo é aprovado ou não.
Na regressão logística, o modelo prevê a probabilidade de ocorrência de um resultado específico. Por exemplo, dado o perfil financeiro de alguém, podemos prever a probabilidade de que seu empréstimo seja aprovado. A saída do modelo é um valor entre 0 e 1. Com base em um limite (frequentemente 0,5), classificamos o resultado como "aprovado" ou "não aprovado". Em vez de traçar uma linha reta através dos dados como faríamos na regressão linear, a regressão logística ajusta uma curva em forma de S para mapear valores de entrada para uma probabilidade.
Tanto a regressão linear quanto a regressão logística usam testes estatísticos para avaliar quais variáveis do preditor afetam significativamente a saída. Técnicas como o teste t e a análise de variância (ANOVA) (ou testes de razão de verossimilhança para regressão logística) geram valores p para cada coeficiente, ajudando-nos a avaliar se a relação é estatisticamente significativa. Um valor p baixo (normalmente abaixo de 0,05) sugere que a variável contribui de forma significativa para o modelo. Também avaliamos o grau de adequação (o quão bem o modelo explica os resultados observados) usando métricas diferentes, dependendo do tipo de regressão.
À medida que construímos modelos, é importante proteger contra overfitting, onde o modelo captura ruído nos dados de treinamento e tem um desempenho ruim em novos dados. Esse risco aumenta quando temos muitas variáveis do preditor, mas um tamanho de amostra pequeno. Para lidar com esse problema, podemos aplicar a regularização, uma técnica que reduz a influência de variáveis menos importantes ao reduzir seus coeficientes. Também deve ser dada muita atenção aos valores discrepantes, pois eles podem distorcer o modelo e levar a valores p ou coeficientes enganosos. Na prática, melhoramos os modelos por meio de várias iterações de seleção de funcionalidades, testes e refinamentos.
Para contrastar os dois modelos de forma mais concreta, considere um cenário de regressão linear em que queremos prever a pontuação de crédito de alguém com base em funcionalidades como suas economias atuais. Podemos modelar isso como:
Assim como a regressão linear, a regressão logística é um tipo de modelo linear que se enquadra na família de modelos lineares generalizados (GLMs). Como no exemplo anterior, se quisermos representar a probabilidade de aprovar ou não, aplicamos a função linear.
Como a função linear pressupõe uma relação linear, à medida que os valores de X mudam, Y pode assumir um valor de (-inf, inf). As probabilidades, como sabemos, estão confinadas a [0,1]. Usando esse princípio do modelo linear, não podemos modelar diretamente as probabilidades de um resultado binário. Em vez disso, precisamos de um modelo logístico para entender as probabilidades. Portanto, queremos aplicar uma transformação à entrada para que o resultado possa ser confinado. Essa transformação é conhecida como equação de regressão logística. Essa equação pode parecer complexa, mas vamos detalhá-la passo a passo para ver como ela é derivada na seção a seguir.
A transformação sigmoide nos permite fazer uma previsão binária para o caso de uso anterior. Após aplicar a transformação, o valor de X pode assumir (-inf, inf), e y ficará confinado a [0,1]
Para entender a função de regressão logística (ou a função sigmoide), precisamos de uma base sólida nos seguintes conceitos:
O logaritmo da razão das probabilidades é conhecido como função logit e forma a base da regressão logística.
Como não podemos modelar probabilidades diretamente usando uma função linear (porque as probabilidades são limitadas entre 0 e 1), em vez disso trabalhamos com a chance. Embora tanto a probabilidade quanto a chance representem a probabilidade de um resultado, elas diferem na definição:
A probabilidade mede a possibilidade de um evento ocorrer entre todos os resultados possíveis.
A chance compara a possibilidade de um evento ocorrer com a possibilidade de ele não ocorrer.
Seja p(x) a probabilidade de um resultado. Então, a chance de x é definida como:
Vejamos um exemplo concreto:
Suponha que uma cesta contenha três maçãs e cinco laranjas.
- A probabilidade de apanhar uma laranja é de 5/(3+5) = 0,625
- As chances de escolher uma laranja são de 5/3 ≈ 1,667
Isso significa que escolher uma laranja é ≈1,667 vezes mais provável do que escolher uma maçã. Por outro lado, a chance de escolher uma maçã são de 3/5 = 0,6, que é menor que 1, indicando que o resultado (escolher uma maçã) é menos provável. Seguindo a equação de chance, também podemos pensar em chance como a probabilidade de um resultado ocorrer sobre 1 - probabilidade de ocorrência do resultado. Portanto, as chances de escolher uma laranja são = P(laranjas)/(1-P(laranjas))=0,625/(1-0,625)≈1,667
A chance pode variar de 0 ao infinito. Um valor de chance maior que 1 indica um resultado favorável, menos de 1 indica um resultado desfavorável e igual a 1 significa que o evento tem tanta probabilidade de ocorrer quanto de não ocorrer.
No entanto, a chance não é simétrica em torno de 1. Por exemplo, a chance de 2 e 0,5 representa “duas vezes mais provável” e “metade da probabilidade”, mas estão em escalas numéricas muito diferentes. Para lidar com esse desequilíbrio, tomamos o logaritmo da chance, que transforma a escala ilimitada [0, ∞) de chance na linha numérica real (–∞, ∞). Isso é conhecido como log-odds (chance logarítmica), ou logit, e é a base do modelo de regressão logística.
Definimos a chance logarítmica como:
Essa transformação nos permite expressar a chance logarítmica como uma função linear da entrada:
Podemos, então, exponenciar ambos os lados para voltar à chance:
Resolvendo para temos a função sigmoide, que ajuda a garantir que o valor previsto fique entre 0 e 1:
Essa transformação permite que a regressão logística produza probabilidades válidas, mesmo que as estejamos modelando usando uma função linear abaixo.
Por fim, vamos apresentar a razão de chances, um conceito que ajuda a interpretar o efeito dos coeficientes do modelo. A razão de chances nos diz como as chance mudam quando a variável de entrada x1 aumenta em uma unidade.
Digamos que a chance do evento seja:
Se aumentarmos x1 em uma unidade, a nova chance se tornará:
Isso significa que para cada aumento de uma unidade em x1, a chance é multiplicada por eb1 . Esse multiplicador é a razão de chance.
- Se b1>1, então a chance aumenta (o evento se torna mais provável)
- Se b1<1, então a chance diminui (os eventos se tornam prováveis)
- Se b1=1, a razão de chances é 0, o que significa que a entrada não tem efeito sobre as chances
A razão de chances dá à regressão logística sua interpretabilidade (ela informa como as chances de um evento mudam com base nas entradas), o que é útil em muitos cenários aplicados, como saúde, marketing e finanças. No entanto, não podemos interpretar os coeficientes da mesma forma que interpretamos os de regressão linear. Na próxima seção, vamos dar uma olhada mais de perto em como os coeficientes são determinados e interpretados.
Lembrete de antes: na regressão linear, os coeficientes são fáceis de interpretar. Veja um exemplo de uma regressão linear com variáveis contínuas: para um aumento de uma unidade na funcionalidade de entrada x, resulta em um aumento de b1 unidade no resultado previsto y. Essa relação direta funciona porque a regressão linear assume uma taxa constante de alteração entre as funcionalidades de entrada e o destino. Sua saída é ilimitada e cresce linearmente.
No entanto, a regressão logística não modela y diretamente — ela modela a probabilidade de y por meio da chance logarítmica (o logaritmo da chance). Por isso, não podemos dizer que o aumento de uma unidade em x resulta em uma mudança de unidade constante em y. Em vez disso, interpretamos o coeficiente em termos de seu efeito sobre a chance logarítmica e, por extensão, sobre a chance e a probabilidade do resultado.
Mais especificamente, na regressão logística:
É importante ressaltar que a magnitude do coeficiente reflete o quão forte é essa influência, e a relação de chance (que é a exponencial do coeficiente) nos diz o quanto a chance muda para um aumento de uma unidade na variável.
Assim como outros algoritmos de aprendizado de máquina, podemos incorporar variáveis categóricas para fazer previsões para regressão. Quando trabalhamos com variáveis categóricas ou discretas, frequentemente utilizamos técnicas de engenharia de funcionalidades, como codificação one-shot ou variáveis fictícias para convertê-las em um formato binário que o modelo pode utilizar.
Por exemplo, usando o mesmo conceito de antes, digamos que queiramos prever se alguém foi aprovado para um empréstimo ( para aprovados, para não aprovados) com base na fato de ele ainda ter uma dívida existente:
- Deixe significa que eles não têm dívidas existentes
- Deixe significa que eles têm dívidas existentes
Nossa chance logarítmica de seria
O coeficiente , representa a mudança na chance logarítmica de ser aprovado quando a pessoa tem uma dívida existente, em comparação com alguém que não tem.
Para tornar isso mais interpretável, podemos exponenciar b1 para obter a razão de chance:
Portanto, embora percamos a interpretação direta dos coeficientes da regressão linear, a regressão logística ainda oferece insights ricos e interpretáveis, especialmente quando os enquadramos em termos de chance e mudanças de probabilidade. A magnitude do aumento ou diminuição na probabilidade em função de não corresponde a uma unidade de aumento em , mas depende de onde está em um determinado ponto.
Os coeficientes na regressão logística, e , são estimados por meio da estimativa de máxima verossimilhança (MLE). A ideia central por trás da MLE é encontrar os parâmetros que tornam os dados observados mais "prováveis" sob o modelo de regressão logística.
Na regressão logística, modelamos a probabilidade de que a variável-alvo é 1 (por exemplo, "aprovado") dada uma entrada usando a função logística (sigmoide):
A MLE tenta diferentes combinações de e , e para cada combinação, pergunta: Qual é a probabilidade de vermos os resultados reais em nossos dados, dados esses parâmetros?
Isso é capturado usando a função de verossimilhança, que multiplica as probabilidades previstas para cada ponto de dados:
- Se =1 (“aprovado”), queremos que a probabilidade prevista do modelo esteja tão próxima quanto 1. O termo lida com isso. Se os dados reais observados de y1 forem realmente "aprovados" ou 1, o termo será 1.
- Se =0, queremos que a probabilidade prevista esteja próxima de 0. O termo lida com esse caso. Se os dados reais observados de é "não aprovado", ou 0, o valor será estarão próximos de 0, portanto estarão próximos de 1.
Assim, para cada ponto de dados, multiplicamos OU , dependendo de o rótulo real ser 1 ou 0. O produto de todos os exemplos nos fornece um único número: a verossimilhança de ver o conjunto de dados inteiro sob o modelo atual. Como podemos ver, se os resultados previstos (usando parâmetros e ) em conformidade com os dados observados, o valor da verossimilhança será maximizado. O motivo da multiplicação de todas as probabilidades é que assumimos que os resultados são independentes uns dos outros. Em outras palavras, a chance de aprovação de uma pessoa não deve influenciar a chance de aprovação de outra pessoa.
Como esse produto pode ficar extremamente pequeno, geralmente trabalhamos com a probabilidade logarítmica, que transforma o produto em uma soma e é mais fácil de calcular e otimizar.
Para encontrar os valores de e que maximizam a probabilidade logarítmica, usamos o gradiente descendente, um algoritmo de otimização iterativo. Em cada etapa, calculamos como a probabilidade logarítmica muda em relação a cada parâmetro (por exemplo, seu gradiente) e, em seguida, atualizamos os parâmetros ligeiramente na direção que aumenta a probabilidade. Com o tempo, esse processo converge para os valores do e que melhor se ajustam aos dados.
Existem três tipos de modelos de regressão logística, que são definidos com base na resposta categórica.
A regressão logística é comumente usada para problemas de previsão e classificação. Alguns desses casos de uso incluem:
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.