Обобщенные линейные модели

Обобщенная линейная модель расширяет общую линейную модель, связывая зависимую переменную с факторами и ковариатами посредством задаваемой функции. Более того, модель допускает наличие у зависимой переменной распределения, отличающегося от нормального. Охватываются широко используемые статистические модели, такие как линейная регрессия, для откликов с нормальным распределением, логистические модели для двоичных данных, логлинейные модели для счетных данных, модели с дополняющим двойным логарифмированием для интервал-цензурированных данных выживания плюс многие другие статистические модели, вплоть до их очень общих редакций.

Примеры. Компания-судовладелец может использовать обобщенные линейные модели для подгонки регрессии Пуассона к числу повреждений кораблей нескольких типов, построенных в разные периоды времени, а окончательная модель может помочь определить, какие типы кораблей наиболее подвержены повреждениям.

Компания по страхованию автомобилей может использовать обобщенные линейные модели для подгонки гамма-регрессии к страховым требованиям по повреждениям автомобилей, а окончательная модель может помочь определить факторы, наиболее существенные в страховых требованиях.

Медики могут использовать обобщенные линейные модели для подгонки комплементарной лог-лог регрессии к цензурированным по интервалам данным о выживании, чтобы предсказать время повторения заболевания.

Особенности данных обобщенных линейных моделей

Данные. Данными ответа могут быть масштаб, количества, двоичные данные или события испытаний. Предполагается, что факторы - это категориальные переменные. Ковариаты, масштабный вес и смещения предполагаются переменными масштаба.

Допущения. Наблюдения предполагаются независимыми.

Чтобы получить обобщенную линейную модель

Для этой возможности требуется модуль Настраиваемые таблицы и расширенная статистика.

Выберите в меню:

Анализ > Обобщенные линейные модели > Обобщенные линейные модели...

  1. Задайте распределение и функцию связи (подробности о применении различных опций смотрите ниже).
  2. На вкладке Ответ выберите зависимую переменную.
  3. На вкладке Предикторы выберите факторы и ковариаты для использования в предсказании зависимой переменной.
  4. На вкладке Модель задайте эффекты модели при помощи выбранных факторов и ковариат.

На вкладке Тип модели можно задать распределение и функцию связи для вашей модели, определяя ярлыки для нескольких общих моделей, классифицированных по типу ответа.

Типы моделей

Масштабный отклик. Доступны следующие параметры:

  • Линейная. В качестве распределения задается Нормальное, а в качестве функции связи - Тождественная.
  • Гамма-распределение с логарифмической связью. В качестве распределения задается Гамма, а в качестве функции связи - Логарифмическая.

Порядковый отклик. Доступны следующие параметры:

  • Порядковое логистическое распределение. В качестве распределения задается Полиномиальное (порядковое), а в качестве функции связи - Кумулятивная логит.
  • Порядковое пробит-распределение. В качестве распределения задается Полиномиальное (порядковое), а в качестве функции связи - Кумулятивная пробит.

Частоты. Доступны следующие параметры:

  • Распределение Пуассона с логлинейной связью. В качестве распределения задается Пуассона, а в качестве функции связи - Логарифмическая.
  • Отрицательное биномиальное распределение с логарифмической связью. В качестве распределения задается Отрицательное биномиальное (со значением 1 для вспомогательного параметра), а в качестве функции связи - Логарифмическая. Чтобы процедура оценивала значение вспомогательного параметра, задайте настаиваемую модель с отрицательным биномиальным распределением, а в группе параметров выберите Оценить значение.

Бинарный отклик или данные события/попытки. Доступны следующие параметры:

  • Бинарное логистическое распределение. В качестве распределения задается Биномиальное, а в качестве функции связи - Логит.
  • Бинарное пробит-распределение. В качестве распределения задается Биномиальное, а в качестве функции связи - Пробит.
  • Выживание для интервально цензурированных данных. В качестве распределения задается Биномиальное, а в качестве функции связи - дважды логарифмическая.

Смесь. Доступны следующие параметры:

  • Распределение Твиди с логарифмической связью. В качестве распределения задается Твиди, а в качестве функции связи - Логарифмическая.
  • Распределение Твиди с тождественной связью. В качестве распределения задается Твиди, а в качестве функции связи - Тождественная.

Пользовательский. Задайте свое собственное сочетание распределения и функции связи.

Распределение

Этот вариант выбора задает распределение зависимой переменной. Возможность задать распределение, отличающееся от нормального, и нетождественную функцию связи - существенное усовершенствование обобщенной линейной модели относительно общей линейной модели. Существует множество возможных сочетаний функций связей распределения, и несколько могут оказаться приемлемыми для любого данного набора данных, поэтому при выборе можно руководствоваться априорными теоретическими соображениями или тем, какое сочетание кажется наиболее подходящим.

  • Биномиальный. Это распределение применимо только к переменным, представляющим бинарный отклик или количество событий.
  • Гамма. Это распределение применимо к переменным с положительными значениями масштаба со скосом в направлении больших значений. Если значение данных меньше или равно 0 либо пропущено, соответствующее ему наблюдение в анализе не используется.
  • Обратное нормальное распределение. Это распределение применимо к переменным с положительными значениями масштаба со скосом в направлении больших значений. Если значение данных меньше или равно 0 либо пропущено, соответствующее ему наблюдение в анализе не используется.
  • Отрицательное биномиальное распределение. Это распределение может быть представлено в виде числа испытаний, необходимых для получения k успехов, и применимо к переменным с неотрицательными целыми значениями. Если значение данных не целое, меньше 0 или пропущено, соответствующее ему наблюдение в анализе не используется. Значение вспомогательного параметра отрицательного биномиального распределения может быть любым неотрицательным числом; его можно задать как фиксированное значение, либо разрешить его оценку указанной процедурой. Если для вспомогательного параметра задано значение 0, использование этого распределения эквивалентно использованию распределения Пуассона.
  • Нормальное. Это распределение применимо к количественным переменным, значения которых около центрального (среднего) значения принимают симметричное распределение колоколообразной формы. Зависимая переменная должна быть числовой.
  • Пуассона. Это распределение может быть представлено в виде количества событий, произошедших в фиксированный период времени, и применимо к переменным с неотрицательными целыми значениями. Если значение данных не целое, меньше 0 или пропущено, соответствующее ему наблюдение в анализе не используется.
  • Распределение Твиди. Это распределение применимо к переменным, которые могут быть представлены смесями Пуассона гамма-распределений; распределение считается "смешанным" в том отношении, что сочетает в себе свойства непрерывных распределений (принимает неотрицательные действительные значения) и дискретных распределений (с положительной вероятностной мерой для одного значения 0). Зависимая переменная должна быть числовой, с неотрицательными значениями данных. Если значение данных меньше нуля или пропущено, соответствующее ему наблюдение в анализе не используется. Фиксированное значение параметра распределения Твиди может быть любым числом больше единицы и меньше двух.
  • Полиномиальное. Это распределение применимо к переменным, представляющим порядковый отклик. Зависимая переменная может быть числовой или текстовой, и у нее должно быть по крайней мере два различных допустимых значения данных.

Функции связи

Связывающая функция служит для преобразования зависимых переменных для расчета модели. Доступны следующие функции:

  • Тождество. f(x)=x. Зависимая переменная не преобразуется. Эту связь можно использовать с любым распределением.
  • Дополнительный логарифм-логарифм. f(x)=log(−log(1−x)). Применяется только с биномиальным распределением.
  • Кумулятивное Коши. f(x) = tan(π (x – 0.5)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
  • Кумулятивное дополняющее лог-лог. f(x)=ln(−ln(1−x)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
  • Кумулятивное логит. f(x)=ln(x / (1−x)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
  • Кумулятивное отрицательное лог-лог. f(x)=−ln(−ln(x)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
  • Кумулятивное пробит. f(x)=Φ−1(x); применяется к кумулятивной вероятности каждой категории отклика, где Φ−1 - кумулятивная функция обратного стандартного нормального распределения. Применяется только с полиномиальным распределением.
  • Логарифмическая. f(x)=log(x). Эту связь можно использовать с любым распределением.
  • Дополняющее лог. f(x)=log(1−x). Применяется только с биномиальным распределением.
  • Логит. f(x)=log(x / (1−x)). Применяется только с биномиальным распределением.
  • Отрицательное биномиальное распределение. f(x)=log(x / (x+k−1)); где k - вспомогательный параметр отрицательного биномиального распределения. Применяется только с отрицательным биномиальным распределением.
  • Отрицательный Log-log. f(x)=−log(−log(x)). Применяется только с биномиальным распределением.
  • Степенное. f(x)=[(x/(1−x))α−1]/α, если α ≠ 0. f(x)=log(x), если α=0. α - обязательная спецификация числа, которое должно быть действительным числом. Применяется только с биномиальным распределением.
  • Пробит. f(x)=Φ−1(x), где Φ−1 - кумулятивная функция обратного стандартного нормального распределения. Применяется только с биномиальным распределением.
  • Степенная. f(x)=x α, если α ≠ 0. f(x)=log(x), если α=0. α - обязательная спецификация числа, которое должно быть действительным числом. Эту связь можно использовать с любым распределением.

Эта процедура вставит синтаксис команды GENLIN.