Что такое линейная регрессия?

Линейный регрессионный анализ используется для прогнозирования значения переменной на основе значения другой переменной. Переменная, которую требуется предсказать, называется зависимой переменной. Переменная, которая используется для предсказания значения другой переменной, называется независимой переменной.

Эта форма анализа заключается в подборе таких коэффициентов линейного уравнения с одной или несколькими независимыми переменными, чтобы это уравнение наилучшим образом предсказывало значение зависимой переменной. Результат линейной регрессии может быть представлен в виде прямой на плоскости, минимизирующей расхождение между прогнозируемыми и фактическими значениями. Существуют простые калькуляторы линейной регрессии, в которых для расчета оптимальной прямой для аппроксимации набора данных используется метод наименьших квадратов. После этого выполняется оценка величины X (зависимой переменной) по величине Y (независимой переменной).

Пример линейной регрессии

Простота прогнозирования

Расчет линейной регрессии с помощью Microsoft Excel или статистических пакетов, например IBM SPSS® Statistics, значительно упрощает работу с уравнениями, моделями и формулами линейной регрессии. SPSS Statistics может применяться для расчета простой и множественной линейной регрессии.

Линейной регрессией можно пользоваться в разнообразных программах и средах, например:

  • Линейная регрессия в R
  • Линейная регрессия в MATLAB
  • Линейная регрессия в Sklearn
  • Линейная регрессия в Python
  • Линейная регрессия в Excel

Почему линейная регрессия важна

Модели линейной регрессии сравнительно просты и предлагают простые для понимания математические формулы прогнозирования. Линейная регрессия может применяться в разных областях науки и бизнеса.

Линейная регрессия используется повсюду: в биологии, исследованиях поведения и окружающей среды, в обществознании и бизнесе. Модели линейной регрессии зарекомендовали себя в качестве надежного научного метода прогнозирования будущего. Поскольку линейная регрессия представляет собой хорошо изученную статистическую процедуру, свойства моделей линейной регрессии хорошо понятны и просты в обучении.

Надежный научный метод прогнозирования будущего.

Руководители могут пользоваться линейной регрессией для повышения качества принимаемых решений. Организации собирают большие объемы данных, и линейная регрессия помогает им пользоваться этими данными вместо опыта и интуиции для оптимизации взаимодействия с окружающей реальностью. Таким образом, появляется возможность трансформировать большие объемы данных в полезную информацию.

Линейной регрессией также можно пользоваться для повышения качества информации путем анализа закономерностей и взаимосвязей, которые ваши коллеги уже видели и думают, что понимают. Например, анализ данных о продажах и закупках помогает выявить закономерности в покупках в определенные дни недели или время суток. Информация, полученная с помощью регрессионного анализа, помогает прогнозировать периоды времени, когда продукция их компании будет пользоваться высоким спросом.

Основные допущения эффективной линейной регрессии

Допущения, которые следует принимать во внимание в ходе линейного регрессионного анализа:

  • Для каждой переменной: Примите во внимание количество допустимых случаев, среднее значение и стандартное отклонение.  
  • Для каждой модели: Примите во внимание коэффициенты регрессии, матрицу корреляции, частичные корреляции, множественный коэффициент корреляции, коэффициент детерминации, скорректированный коэффициент детерминации, изменение коэффициента детерминации, стандартную ошибку оценки, таблицу анализа дисперсии, спрогнозированные значения и ошибки. Также следует принять во внимание 95%-е доверительные интервалы для каждого коэффициента регрессии, матрицы дисперсии и ковариации, фактор роста дисперсии, толерантность, критерий Дарбина-Уотсона, меры расстояния (Махаланобис, Кук и значения рычагов), DfBeta, DfFit, интервалы прогнозирования и диагностическую информацию по каждому конкретному случаю.  
  • Диаграммы: Примите во внимание диаграммы рассеяния, частичные диаграммы, гистограммы и диаграммы нормального распределения.
  • Данные: Зависимые и независимые переменные должны быть числовыми. Категорийные данные, например религия, профильное образование или регион проживания, должны сохраняться в двоичных переменных или других переменных, допускающих сравнение.  
  • Другие предположения: Для каждого значения независимой переменной распределение зависимой переменной должно быть нормальным. Дисперсия распределения зависимой переменной должна быть постоянной для всех значений независимой переменной. Связь между зависимой переменной и каждой независимой переменной должна быть линейной, и все наблюдения должны быть независимыми.

Убедитесь, что ваши данные соответствуют допущениям линейной регрессии.

Прежде чем выполнять линейную регрессию, необходимо убедиться, что ваши данные поддаются анализу этим методом. Данные должны соответствовать определенным допущениям.

Как проверить выполнение этих допущений:

  1. Переменные должны измеряться непрерывно. Примеры непрерывных переменных: время, продажи, вес, результаты тестов. 
  2. С помощью диаграммы рассеяния можно быстро определить, имеется ли линейная взаимосвязь между двумя переменными.
  3. Наблюдения должны быть независимыми друг от друга.
  4. В данных не должно быть значительных выбросов.  
  5. Проверьте данные на гомоскедастичность — однородность дисперсии случайной ошибки регрессионной модели.
  6. Дисперсия случайной ошибки регрессионной модели должна иметь нормальное распределение.

Оценка тенденций и продаж

Линейным регрессионным анализом также можно пользоваться для прогнозирования годовых продаж (зависимая переменная) по таким независимым переменным, как возраст, образование и количество лет опыта.

Анализ эластичности цен

Изменение цен часто влияет на поведение потребителей, и линейная регрессия помогает проанализировать это влияние. Например, если цены на определенный продукт постоянно меняются, регрессионный анализ позволяет понять, падает ли потребление при росте цены. Что если потребление не будет значительно сокращаться при увеличении цены? При какой цене покупатели перестают покупать продукт? Эта информация очень пригодится руководителям предприятий розничной торговли.

Оценка рисков в страховой компании

Линейной регрессией можно пользоваться для анализа рисков. Например, у страховой компании может быть ограниченный объем ресурсов для расследования страховых случаев, связанных с недвижимым имуществом. С помощью линейной регрессии можно создать модель оценки стоимости страховых случаев. Этот анализ может помочь руководителям компании принимать важные решения о том, какие риски готова принимать компания.

Спортивный анализ

Сферы применения линейной регрессии не ограничены бизнесом. Она также важна в спорте. Например, можно заинтересоваться вопросом о том, зависит ли количество матчей, выигранных баскетбольной командой за сезон, от среднего количества очков за матч. По диаграмме рассеяния видно, что между этими переменными существует линейная зависимость. Количество выигранных матчей и среднее количество очков, набранное противником, также демонстрируют линейную корреляцию. У этих переменных корреляция отрицательная. С увеличением количества выигранных матчей уменьшается среднее количество очков, набранных оппонентом. С помощью линейной регрессии можно смоделировать взаимосвязь этих переменных. Хорошая модель позволяет спрогнозировать количество матчей, которое выиграет команда.

Продукты, предлагающие линейную регрессию

Программное обеспечение IBM SPSS Statistics

Ускорьте исследования и анализ с помощью быстрого и высокопроизводительного решения.

IBM SPSS Statistics Grad Pack и Faculty Pack

Студенты, преподаватели и ученые имеют возможность пользоваться недорогой версией программного обеспечения для предсказательной аналитики.

IBM Cognos Statistics

Проверенное решение для самостоятельного анализа, позволяющее объединять и наглядно визуализировать данные.