Обобщенные линейные модели
Обобщенная линейная модель расширяет общую линейную модель, связывая зависимую переменную с факторами и ковариатами посредством задаваемой функции. Более того, модель допускает наличие у зависимой переменной распределения, отличающегося от нормального. Охватываются широко используемые статистические модели, такие как линейная регрессия, для откликов с нормальным распределением, логистические модели для двоичных данных, логлинейные модели для счетных данных, модели с дополняющим двойным логарифмированием для интервал-цензурированных данных выживания плюс многие другие статистические модели, вплоть до их очень общих редакций.
Примеры. Компания-судовладелец может использовать обобщенные линейные модели для подгонки регрессии Пуассона к числу повреждений кораблей нескольких типов, построенных в разные периоды времени, а окончательная модель может помочь определить, какие типы кораблей наиболее подвержены повреждениям.
Компания по страхованию автомобилей может использовать обобщенные линейные модели для подгонки гамма-регрессии к страховым требованиям по повреждениям автомобилей, а окончательная модель может помочь определить факторы, наиболее существенные в страховых требованиях.
Медики могут использовать обобщенные линейные модели для подгонки комплементарной лог-лог регрессии к цензурированным по интервалам данным о выживании, чтобы предсказать время повторения заболевания.
Особенности данных обобщенных линейных моделей
Данные. Данными ответа могут быть масштаб, количества, двоичные данные или события испытаний. Предполагается, что факторы - это категориальные переменные. Ковариаты, масштабный вес и смещения предполагаются переменными масштаба.
Допущения. Наблюдения предполагаются независимыми.
Чтобы получить обобщенную линейную модель
Для этой возможности требуется модуль Настраиваемые таблицы и расширенная статистика.
Выберите в меню:
- Задайте распределение и функцию связи (подробности о применении различных опций смотрите ниже).
- На вкладке Ответ выберите зависимую переменную.
- На вкладке Предикторы выберите факторы и ковариаты для использования в предсказании зависимой переменной.
- На вкладке Модель задайте эффекты модели при помощи выбранных факторов и ковариат.
На вкладке Тип модели можно задать распределение и функцию связи для вашей модели, определяя ярлыки для нескольких общих моделей, классифицированных по типу ответа.
Типы моделей
Масштабный отклик. Доступны следующие параметры:
- Линейная. В качестве распределения задается Нормальное, а в качестве функции связи - Тождественная.
- Гамма-распределение с логарифмической связью. В качестве распределения задается Гамма, а в качестве функции связи - Логарифмическая.
Порядковый отклик. Доступны следующие параметры:
- Порядковое логистическое распределение. В качестве распределения задается Полиномиальное (порядковое), а в качестве функции связи - Кумулятивная логит.
- Порядковое пробит-распределение. В качестве распределения задается Полиномиальное (порядковое), а в качестве функции связи - Кумулятивная пробит.
Частоты. Доступны следующие параметры:
- Распределение Пуассона с логлинейной связью. В качестве распределения задается Пуассона, а в качестве функции связи - Логарифмическая.
- Отрицательное биномиальное распределение с логарифмической связью. В качестве распределения задается Отрицательное биномиальное (со значением 1 для вспомогательного параметра), а в качестве функции связи - Логарифмическая. Чтобы процедура оценивала значение вспомогательного параметра, задайте настаиваемую модель с отрицательным биномиальным распределением, а в группе параметров выберите Оценить значение.
Бинарный отклик или данные события/попытки. Доступны следующие параметры:
- Бинарное логистическое распределение. В качестве распределения задается Биномиальное, а в качестве функции связи - Логит.
- Бинарное пробит-распределение. В качестве распределения задается Биномиальное, а в качестве функции связи - Пробит.
- Выживание для интервально цензурированных данных. В качестве распределения задается Биномиальное, а в качестве функции связи - дважды логарифмическая.
Смесь. Доступны следующие параметры:
- Распределение Твиди с логарифмической связью. В качестве распределения задается Твиди, а в качестве функции связи - Логарифмическая.
- Распределение Твиди с тождественной связью. В качестве распределения задается Твиди, а в качестве функции связи - Тождественная.
Пользовательский. Задайте свое собственное сочетание распределения и функции связи.
Распределение
Этот вариант выбора задает распределение зависимой переменной. Возможность задать распределение, отличающееся от нормального, и нетождественную функцию связи - существенное усовершенствование обобщенной линейной модели относительно общей линейной модели. Существует множество возможных сочетаний функций связей распределения, и несколько могут оказаться приемлемыми для любого данного набора данных, поэтому при выборе можно руководствоваться априорными теоретическими соображениями или тем, какое сочетание кажется наиболее подходящим.
- Биномиальный. Это распределение применимо только к переменным, представляющим бинарный отклик или количество событий.
- Гамма. Это распределение применимо к переменным с положительными значениями масштаба со скосом в направлении больших значений. Если значение данных меньше или равно 0 либо пропущено, соответствующее ему наблюдение в анализе не используется.
- Обратное нормальное распределение. Это распределение применимо к переменным с положительными значениями масштаба со скосом в направлении больших значений. Если значение данных меньше или равно 0 либо пропущено, соответствующее ему наблюдение в анализе не используется.
- Отрицательное биномиальное распределение. Это распределение может быть представлено в виде числа испытаний, необходимых для получения k успехов, и применимо к переменным с неотрицательными целыми значениями. Если значение данных не целое, меньше 0 или пропущено, соответствующее ему наблюдение в анализе не используется. Значение вспомогательного параметра отрицательного биномиального распределения может быть любым неотрицательным числом; его можно задать как фиксированное значение, либо разрешить его оценку указанной процедурой. Если для вспомогательного параметра задано значение 0, использование этого распределения эквивалентно использованию распределения Пуассона.
- Нормальное. Это распределение применимо к количественным переменным, значения которых около центрального (среднего) значения принимают симметричное распределение колоколообразной формы. Зависимая переменная должна быть числовой.
- Пуассона. Это распределение может быть представлено в виде количества событий, произошедших в фиксированный период времени, и применимо к переменным с неотрицательными целыми значениями. Если значение данных не целое, меньше 0 или пропущено, соответствующее ему наблюдение в анализе не используется.
- Распределение Твиди. Это распределение применимо к переменным, которые могут быть представлены смесями Пуассона гамма-распределений; распределение считается "смешанным" в том отношении, что сочетает в себе свойства непрерывных распределений (принимает неотрицательные действительные значения) и дискретных распределений (с положительной вероятностной мерой для одного значения 0). Зависимая переменная должна быть числовой, с неотрицательными значениями данных. Если значение данных меньше нуля или пропущено, соответствующее ему наблюдение в анализе не используется. Фиксированное значение параметра распределения Твиди может быть любым числом больше единицы и меньше двух.
- Полиномиальное. Это распределение применимо к переменным, представляющим порядковый отклик. Зависимая переменная может быть числовой или текстовой, и у нее должно быть по крайней мере два различных допустимых значения данных.
Функции связи
Связывающая функция служит для преобразования зависимых переменных для расчета модели. Доступны следующие функции:
- Тождество. f(x)=x. Зависимая переменная не преобразуется. Эту связь можно использовать с любым распределением.
- Дополнительный логарифм-логарифм. f(x)=log(−log(1−x)). Применяется только с биномиальным распределением.
- Кумулятивное Коши. f(x) = tan(π (x – 0.5)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
- Кумулятивное дополняющее лог-лог. f(x)=ln(−ln(1−x)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
- Кумулятивное логит. f(x)=ln(x / (1−x)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
- Кумулятивное отрицательное лог-лог. f(x)=−ln(−ln(x)); применяется к кумулятивной вероятности каждой категории отклика. Применяется только с полиномиальным распределением.
- Кумулятивное пробит. f(x)=Φ−1(x); применяется к кумулятивной вероятности каждой категории отклика, где Φ−1 - кумулятивная функция обратного стандартного нормального распределения. Применяется только с полиномиальным распределением.
- Логарифмическая. f(x)=log(x). Эту связь можно использовать с любым распределением.
- Дополняющее лог. f(x)=log(1−x). Применяется только с биномиальным распределением.
- Логит. f(x)=log(x / (1−x)). Применяется только с биномиальным распределением.
- Отрицательное биномиальное распределение. f(x)=log(x / (x+k−1)); где k - вспомогательный параметр отрицательного биномиального распределения. Применяется только с отрицательным биномиальным распределением.
- Отрицательный Log-log. f(x)=−log(−log(x)). Применяется только с биномиальным распределением.
- Степенное. f(x)=[(x/(1−x))α−1]/α, если α ≠ 0. f(x)=log(x), если α=0. α - обязательная спецификация числа, которое должно быть действительным числом. Применяется только с биномиальным распределением.
- Пробит. f(x)=Φ−1(x), где Φ−1 - кумулятивная функция обратного стандартного нормального распределения. Применяется только с биномиальным распределением.
- Степенная. f(x)=x α, если α ≠ 0. f(x)=log(x), если α=0. α - обязательная спецификация числа, которое должно быть действительным числом. Эту связь можно использовать с любым распределением.
Эта процедура вставит синтаксис команды GENLIN.