O que é regressão linear?

A análise de regressão linear é usada para prever o valor de uma variável com base no valor de outra. A variável que deseja prever é chamada de variável dependente. A variável que é usada para prever o valor de outra variável é chamada de variável independente.

Essa forma de análise estima os coeficientes da equação linear, envolvendo uma ou mais variáveis independentes que melhor preveem o valor da variável dependente. A regressão linear se ajusta a uma linha reta ou superficial que minimiza as discrepâncias entre os valores de saída previstos e reais. Há calculadoras de regressão linear simples que usam um método dos mínimos quadrados para descobrir a linha de melhor ajuste para um conjunto de dados emparelhados. Em seguida, o valor de X (variável dependente) de Y (variável independente) é estimado.

Um exemplo de gráfico de dispersão de regressão linear

Gere previsões com mais facilidade

É possível executar a regressão linear no Microsoft Excel ou usar pacotes de software estatísticos, como o IBM SPSS® Statistics®, que simplificam muito o processo de utilização de equações, modelos e fórmulas de regressão linear. O SPSS Statistics pode ser utilizado em técnicas como a regressão linear simples e a regressão linear múltipla.

É possível executar o método de regressão linear em uma variedade de programas e ambientes, incluindo:

  • Regressão linear R
  • Regressão linear do MATLAB
  • Regressão linear do Sklearn
  • Regressão linear do Python
  • Regressão linear do Excel

Por que a regressão linear é importante?

Modelos de regressão linear são relativamente simples e fornecem uma fórmula matemática fácil de interpretar que pode gerar previsões. A regressão linear pode ser aplicada a diversas áreas de estudo empresarial e acadêmico.

A regressão linear é usada em tudo, desde ciências biológicas, comportamentais, ambientais e sociais até negócios. Modelos de regressão linear se tornaram uma forma comprovada de prever o futuro cientificamente e com confiança. Como a regressão linear é um procedimento estatístico há muito estabelecido, as propriedades de modelos de regressão linear são bem compreendidas e podem ser treinadas muito rapidamente.

Uma maneira comprovada de prever o futuro cientificamente e com confiança

Os líderes corporativos podem tomar melhores decisões usando técnicas de regressão linear. As empresas coletam grandes quantidades de dados e a regressão linear auxilia com o uso desses dados para gerenciar melhor a realidade, em vez de confiar na experiência e na intuição. É possível obter grandes quantidades de dados brutos e transformá-los em informações acionáveis.

Também é possível usar a regressão linear para fornecer melhores insights, descobrindo padrões e relacionamentos que seus colegas de negócios podem ter visto e julgado incorretamente. Por exemplo, a execução de uma análise de dados de vendas e de compra pode ajudá-lo a descobrir padrões de compra específicos, em dias específicos ou em determinados momentos. Os insights coletados da análise de regressão podem ajudar os líderes de negócios a antecipar os momentos nos quais os produtos de sua empresa estarão com alta demanda.

Principais premissas de uma regressão linear efetiva

Premissas a serem consideradas para o sucesso com a análise de regressão linear:

  • Para cada variável: Considere o número de casos válidos, médias e desvio padrão.  
  • Para cada modelo: Considere coeficientes de regressão, matriz de correlação, correlações de partes e correlações parciais, múltiplos R, R2, R2 ajustado, mudança em R2, erro padrão da tabela de estimativa e análise de variância, valores previstos e resíduos. Além disso, considere intervalos de confiança de 95% para cada coeficiente de regressão, matriz de covariância-variância, fator de inflação de variância, tolerância, teste Durbin-Watson, medidas de distância (valores de Mahalanobis, Cook e utilização), DfBeta, DfFit, intervalos de previsão e informações de diagnóstico por caso.  
  • Gráficos: Use gráficos de dispersão, parcelas parciais, histogramas e gráficos de probabilidade normal.
  • Dados: As variáveis dependentes e independentes devem ser quantitativas. Variáveis categóricas, como religião, grande campo de estudo ou região de residência, precisam ser recodificadas para variáveis binárias (dummy) ou outros tipos de variáveis de contraste.  
  • Outras hipóteses: Para cada valor da variável independente, a distribuição da variável dependente deve ser normal. A variância da distribuição da variável dependente deve ser constante para todos os valores da variável independente. O relacionamento entre a variável dependente e cada variável independente deve ser linear e todas as observações devem ser independentes.

Certifique-se de que seus dados atendam às suposições de regressão linear

Antes de tentar executar a regressão linear, é necessário certificar-se de que seus dados possam ser analisados usando este procedimento. Seus dados devem passar por determinadas premissas necessárias.

Veja como verificar essas premissas:

  1. As variáveis devem ser medidas a nível contínuo. Exemplos de variáveis contínuas são tempo, vendas, peso e pontuações de teste.  
  2. Use um gráfico de dispersão para descobrir rapidamente se há um relacionamento linear entre essas duas variáveis.
  3. As observações devem ser independentes umas das outras (isto é, não deve haver dependência).
  4. Seus dados não devem possuir valores discrepantes significativos.  
  5. Verifique a homoscedasticidade, que é um conceito estatístico no qual as variações ao longo da linha de regressão linear de melhor ajuste permaneçam semelhantes por toda a linha.
  6. Os resíduos (erros) da linha de regressão de melhor ajuste seguem a distribuição normal.

Avalie as tendências e as estimativas de vendas

Também é possível usar a análise de regressão linear para tentar prever as vendas anuais totais de um vendedor (a variável dependente) a partir de variáveis independentes, como idade, educação e anos de experiência.

Analise a elasticidade da precificação

Mudanças na precificação geralmente impactam o comportamento do consumidor e a regressão linear pode ajudar a analisar como isso acontece. Por exemplo, se o preço de um produto específico continua a mudar, é possível usar a análise de regressão para ver se o consumo diminui conforme o preço aumenta. E se o consumo não cair significativamente à medida que o preço aumenta? A que preço os compradores param de comprar o produto? Essas informações seriam muito úteis para líderes em um negócio de varejo.

Avalie o risco em uma empresa de seguros

Técnicas de regressão linear podem ser usadas para analisar o risco. Por exemplo, uma empresa de seguros pode ter recursos limitados para investigar as reivindicações de proprietários. Com a regressão linear, a equipe da empresa pode construir um modelo para estimar os custos relacionados. A análise pode ajudar os líderes das empresas a tomar decisões importantes sobre quais riscos tomar.

Análise de esportes

A regressão linear nem sempre é sobre os negócios. Também é importante nos esportes. Por exemplo, é possível perguntar se o número de jogos vencidos por uma equipe de basquete em uma temporada está relacionado ao número médio de pontos que a equipe marca por jogo. Um gráfico de dispersão indica que essas variáveis são relacionadas de maneira linear. O número de jogos vencidos e o número médio de pontos marcados pelo oponente também são relacionados à linearidade. Essas variáveis possuem um relacionamento negativo. Como o número de jogos vencidos aumentou, o número médio de pontos do adversário diminui. Com a regressão linear, é possível modelar o relacionamento dessas variáveis. Um bom modelo pode ser usado para prever quantos jogos os times vencerão.

Produtos de regressão linear

Software do IBM SPSS Statistics

Promova a pesquisa e a análise com esta solução rápida e poderosa.

IBM SPSS Statistics Grad Pack and Faculty Packs

Estudantes, professores e pesquisadores obtêm acesso a preços acessíveis ao software de análise preditiva.

IBM Cognos Statistics

Essa solução de análise de autoatendimento comprovada ajuda a permitir a combinação e a correspondência dos seus dados e a criação de visualizações convincentes.