O que é regressão linear?

A regressão linear é uma técnica estatística usada para prever o valor de uma variável com base no valor de outra variável. A variável que você deseja prever é chamada de variável dependente. A variável que você está usando para prever o valor da outra variável é chamada de variável independente.

Esta forma de análise estima os coeficientes da equação linear, envolvendo uma ou mais variáveis independentes que melhor prevejam o valor da variável dependente. A regressão linear ajusta uma linha reta ou superfície que minimiza as discrepâncias entre os valores de saída previstos e reais. Há calculadoras de regressão linear simples que utilizam o método dos "mínimos quadrados" para descobrir a linha de melhor ajuste para um conjunto de dados em pares. Em seguida, você estima o valor de X (variável dependente) de Y (variável independente).

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Gere previsões com mais facilidade

É possível executar a regressão linear no Microsoft Excel ou usar pacotes de software estatísticos, como o IBM SPSS Statistics, que simplificam muito o processo de uso de equações de regressão linear, modelos de regressão linear e fórmulas de regressão linear. O SPSS Statistics pode ser aproveitado em técnicas como regressão linear simples e regressão linear múltipla.

Você pode executar o método de regressão linear em uma variedade de programas e ambientes, incluindo:

Regressão linear R.
Regressão linear do MATLAB.
Regressão linear do Sklearn.
Regressão linear do Python.
Regressão linear do Excel.

AI Academy

Coloque a IA para trabalhar no serviço ao cliente

Veja como a IA generativa pode encantar os clientes com uma experiência mais integrada e aumentar a produtividade da organização nessas três áreas importantes: autoatendimento, agentes humanos e operações da central de contato.

Acessar o episódio

Por que a regressão linear é importante

Os modelos de regressão linear são relativamente simples e oferecem uma fórmula matemática fácil de interpretar capaz de gerar previsões. A regressão linear pode ser aplicada em diversas áreas nos negócios e nos estudos acadêmicos.

Você descobrirá que a regressão linear é usada em uma variedade de áreas, desde ciências biológicas, comportamentais, ambientais e sociais até negócios. Os modelos de regressão linear tornaram-se uma maneira comprovada de prever o futuro de forma científica e confiável. Devido a fato de a regressão linear ser um procedimento estatístico consolidado, as propriedades dos modelos de regressão linear são bem conhecidas e podem ser treinadas rapidamente.

Uma forma comprovada de prever o futuro de forma científica e confiável

Os líderes empresariais e organizacionais podem tomar decisões melhores utilizando técnicas de regressão linear. As organizações coletam enormes quantidades de dados, e a regressão linear ajuda a usar esses dados para melhorar o gerenciamento da realidade, em vez de depender apenas de experiência e intuição. Você pode transformar grandes quantidades de dados brutos em informações praticáveis.

Você pode também utilizar a regressão linear para oferecer insights melhores, descobrindo padrões e relacionamentos que seus colegas de negócios talvez não tenham percebido anteriormente ou pensado que já entendiam. Por exemplo, uma análise de dados de vendas e compras pode ajudar a descobrir padrões específicos de compra em determinados dias ou em certos horários. Os insights reunidos da análise de regressão podem ajudar os líderes empresariais a antecipar os momentos em que os produtos de sua empresa estarão em alta demanda.

Premissas para regressão linear efetiva

As principais suposições a serem consideradas para o sucesso da análise de regressão linear são:

Para cada variável: considere o número de casos válidos, média e desvio padrão.
Para cada modelo: avaliar os coeficientes de regressão, a matriz de correlação, as correlações parciais, R múltiplo, R², R² ajustado, mudança em R², erro padrão da estimativa, tabela de análise de variância, valores previstos e resíduos. Além disso, considere intervalos de confiança de 95% para cada coeficiente de regressão, matriz de variância e covariância, fator de inflação de variância, tolerância, teste de Durbin-Watson, medidas de distância (valores de Mahalanobis, Cook e alavancagem), DfBeta, DfFit, intervalos de previsão e informações diagnósticas caso a caso.
Gráficos: considere gráficos de dispersão, gráficos parciais, histogramas e gráficos de probabilidade normal.
Dados: variáveis dependentes e independentes devem ser quantitativas. É necessário recodificar variáveis categóricas, como religião, campo principal de estudo ou região de residência, em variáveis binárias (dummy) ou outros tipos de variáveis de contraste.
Outras premissas: para cada valor da variável independente, a distribuição da variável dependente deve ser normal. A variância da distribuição da variável dependente deve permanecer constante para todos os valores da variável independente. A relação entre a variável dependente e cada variável independente deve ser linear, e todas as observações devem ser independentes.

Confirme se os seus dados atendam às suposições da regressão linear.

Antes de tentar realizar uma regressão linear, é necessário garantir que seus dados possam ser analisados utilizando este procedimento. Seus dados devem passar por certas suposições obrigatórias.

Veja como você você pode verificar essas suposições:

As variáveis devem ser medidas no nível contínuo. Exemplos de variáveis contínuas são pontuações de tempo, vendas, peso e teste.
Use um gráfico de dispersão para descobrir rapidamente se há uma relação linear entre essas duas variáveis.
As observações devem ser independentes umas das outras (isso é, não deve haver dependência).
Seus dados não devem ter valores discrepantes consideráveis.
Verifique a homocedasticidade, um conceito estatístico no qual as variâncias ao longo da linha de regressão linear ajustada permanecem semelhantes em toda essa linha.
Os resíduos (erros) da linha de regressão de melhor ajuste seguem a distribuição normal.

Exemplos de sucesso na regressão linear

Avaliação das tendências e estimativas de vendas

Você pode também usar a análise de regressão linear para tentar prever as vendas totais anuais de um vendedor (a variável dependente) a partir de variáveis independentes como idade, educação e anos de experiência.

Analise a elasticidade de preços

As mudanças nos preços frequentemente afetam o comportamento do consumidor, e a regressão linear pode ajudar a analisar esse impacto. Por exemplo, se o preço de um produto específico continua mudando, você pode usar a análise de regressão para ver se o consumo diminui à medida que o preço aumenta. E se o consumo não cair significativamente à medida que o preço aumentar? Em que ponto de preço os compradores param de comprar o produto? Essas informações seriam muito úteis para líderes de negócios de varejo.

Avalie os riscos em uma seguradora

Técnicas de regressão linear podem ser usadas para analisar os riscos. Por exemplo, uma companhia de seguros pode ter recursos limitados para investigar reclamações de seguro residencial; com a regressão linear, a equipe da empresa pode construir um modelo para estimar os custos das reclamações. A análise pode ajudar os líderes da empresa a tomar decisões importantes sobre quais riscos assumir.

Análise de esportes

A regressão linear nem sempre envolve negócios. Também é importante nos esportes. Por exemplo, talvez você se pergunte se o número de jogos ganhos por um time de basquete em uma temporada está relacionado ao número médio de pontos que o time marca por jogo. Um gráfico de dispersão indica que essas variáveis estão relacionadas de forma linear. O número de jogos ganhos e a média de pontos marcados pelo oponente também estão linearmente relacionados. Essas variáveis têm uma relação negativa. Conforme o número de jogos vencidos aumenta, a média de pontos marcados pelo adversário diminui. Com a regressão linear, é possível modelar a relação dessas variáveis. Um bom modelo pode ser usado para prever quantos jogos as equipes vão ganhar.

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

O que é regressão linear?