Целевая переменная (модели GLE)
Эти параметры определяют целевую переменную, ее распределение и взаимосвязи с предикторами через функцию связи.
Целевая переменная Целевая переменная обязательна для ввода. У нее может быть любая шкала измерения, причем шкала измерения целевой переменной определяет подходящие для нее распределения и функции связи.
- Использовать предопределенное поле назначения Чтобы использовать параметры назначения из расположенного выше узла типа (или вкладки Тип расположенного выше узла источника), выберите эту опцию.
- Использовать заданное поле назначения Чтобы задать поле назначения вручную, выберите эту опцию.
- Использовать число попыток как знаменатель Если целевым откликом является количество событий, встречающихся в наборе испытаний, поле назначения содержит
количество событий, причем можно выбрать дополнительную переменную, содержащую количество попыток. Например, при испытаниях нового пестицида выборки муравьев подвергаются воздействию различных концентраций этого пестицида, и для каждой выборки фиксируется количество погибших муравьев, а также ее объем. В этом случае поле, содержащее число погибших муравьев, указывается как поле назначения (событий), а поле, содержащее число муравьев в каждой выборке, указывается как поле испытаний. Если число муравьев во всех выборках одинаково, число испытаний можно задать в виде постоянной величины.
Число испытаний не должно превышать числа событий для каждой записи. События должны представлять собой неотрицательные, а испытания - положительные целые числа.
- Задать опорную категорию. Для категориальной целевой переменной можно выбрать опорную категорию. Это может повлиять на некоторые характеристики вывода, например, оценки параметров, но не может изменить подгонку модели. Например, если целевая переменная принимает значения 0, 1 и 2, то по умолчанию процедура сделает последнюю категорию (с наивысшим значением, то есть 2), опорной категорией. В этой ситуации оценки параметров следует интерпретировать как относящиеся к вероятности категорий 0 и 1 по отношению к вероятности категории 2. Если вы задали пользовательскую категорию и в целевой переменной определены метки, опорную категорию можно задать, выбрав значение в списке. Это может быть удобно, если в процессе задания модели вы забыли кодировку какого-либо поля.
Распределение целевой переменной и функция связи для линейной модели При заданных значениях предикторов, согласно данной модели, распределение значений целевой переменной, должно соответствовать заданному виду, а сами значения должны быть связаны с предикторами заданной линейной функцией связи. Воспользуйтесь ярлыками для нескольких общих моделей или выберите параметр Пользовательские, если хотите использовать определенное сочетание распределения и функции связи, которого нет в списке ярлыков.
- Линейная модель Задает нормальное распределение с тождественной функцией связи и применяется, когда целевую переменную можно предсказать, используя модель линейной регрессии или дисперсионного анализа.
- Гамма-регрессия Задает гамма-распределение с логарифмической функцией связи и применяется, когда распределение целевой переменной содержит только положительные значения и скошено в направлении больших значений.
- Логлинейное Задает распределение Пуассона с логарифмической функцией связи и применяется, когда целевая переменная представляет частоты событий, произошедших в фиксированный период времени.
- Отрицательная биномиальная регрессия Задает отрицательное биномиальное распределение с логарифмической функцией связи, которую следует использовать, когда целевая переменная и знаменатель представляет собой количество попыток, требуемое для k успешных результатов.
- Регрессия Твиди Задает распределение Твиди с тождественной, логарифмической или степенной функцией связи; полезна для моделирования откликов, содержащих нули и положительные действительные значения. Эти распределения также называются составное пуассоновское, составное гамма-распределение и гамма-пуассоновское распределение.
- Мультиномиальная логистическая регрессия Задает полиномиальное распределение, которое нужно использовать, когда целевая переменная представляет собой отклик с несколькими категориями. В ней используется кумулятивная logit-модель (порядковые исходы) или обобщенную logit-модель (ответы с несколькими номинальными категориями).
- Бинарная логистическая регрессия Задает биномиальное распределение с функцией связи логит и применяется, когда переменная назначения является бинарным откликом, предсказываемым логистической регрессионной моделью.
- Бинарный пробит Задает биномиальное распределение с функцией связи пробит и применяется, когда переменная назначения является бинарным откликом, в основе которого лежит нормальное распределение.
- Выживание для интервально цензурированных данных Задает биномиальное распределение с функцией связи Дополняющая лог-лог и используется в анализе выживания, когда некоторые наблюдения не имеют терминального события.
- Задать Задайте свое собственное сочетание распределения и функции связи.
Распределение
Выбор в этой группе задает Распределение целевой переменной. Возможность задать распределение, отличающееся от нормального, и нетождественную функцию связи - существенное усовершенствование обобщенной линейной модели относительно линейной модели. Из множества возможных комбинаций "распределение - функция связи" некоторые могут быть пригодны для любого набора данных, поэтому выбор в таких случаях может основываться на априорных теоретических соображениях или на оценке согласия данных с моделью.
- Автоматически Если вы не уверены, какое распределение нужно использовать, выберите эту опцию; тогда узел проанализирует ваши данные, чтобы оценить и применить оптимальный метод распределения.
- Биномиальное Это распределение подходит только для целевой переменной, представляющей бинарный отклик или число событий.
- Гамма Этот вид распределения подходит для целевой переменной с положительными значениями, распределение которой скошено в сторону больших значений. Если значение равно нулю, отрицательно или отсутствует, соответствующее наблюдение не используется в анализе.
- Обратный гауссиан Этот вид распределения подходит для целевой переменной с положительными значениями, распределение которой скошено в сторону больших значений. Если значение равно нулю, отрицательно или отсутствует, соответствующее наблюдение не используется в анализе.
- Полиномиальное Это распределение подходит для целевой переменной, представляющей отклик с несколькими категориями. Вид модели зависит от шкалы измерения целевой переменной.
Номинальной целевой переменной соответствует номинальная полиномиальная модель, в которой для каждой категории (кроме опорной) оценивается отдельный набор параметров. Оценки параметров для данного предиктора показывают взаимосвязь между этим предиктором и вероятностью каждой категории целевой переменной по отношению к опорной категории.
Порядковой целевой переменной соответствует порядковая полиномиальная модель, в которой традиционный свободный член заменен набором пороговых параметров, относящихся к накопленной вероятности категорий целевой переменной.
- Отрицательная биномиальная Отрицательная биномиальная регрессия использует отрицательное биномиальное распределение с логарифмической функцией связи, которую следует использовать, когда поле назначения представляет собой количество событий с большой дисперсией.
- Нормальное Подходит для непрерывной целевой переменной с симметричным колоколообразным распределением вокруг центрального (среднего) значения.
- Пуассона Это распределение может быть представлено в виде количества событий, произошедших в фиксированный период времени, и применимо к переменным с неотрицательными целыми значениями. Если значение данных не целое, меньше 0 или пропущено, соответствующее ему наблюдение в анализе не используется.
- Распределение Твиди Это распределение применимо к переменным, которые могут быть представлены смесями Пуассона гамма-распределений; распределение считается "смешанным" в том отношении, что сочетает в себе свойства непрерывных распределений (принимает неотрицательные действительные значения) и дискретных распределений (с положительной вероятностной мерой для одного значения 0). Зависимая переменная должна быть числовой, с неотрицательными значениями данных. Если значение данных меньше нуля или пропущено, соответствующее ему наблюдение в анализе не используется. Фиксированное значение параметра распределения Твиди может быть любым числом больше единицы и меньше двух.
Функции связи
Функция связи - это преобразование назначения для расчета модели. Доступны следующие функции:
- Автоматически Если вы не уверены, какую связь нужно использовать, выберите эту опцию; тогда узел проанализирует ваши данные, чтобы оценить и применить оптимальную функцию связи.
- Тождественное f(x)=x. Назначение не преобразуется. Эта функция может использоваться для любых распределений, кроме полиномиального.
- Дополнительный лог-лог f(x)=log(−log(1−x)). Подходит только для биномиального или полиномиального распределения.
- Кошит f(x) = tan(π (x − 0.5)). Подходит только для биномиального или полиномиального распределения.
- Логарифмическая f(x)=log(x). Эта функция может использоваться для любых распределений, кроме полиномиального.
- Логарифм дополнения f(x)=log(1−x). Применяется только с биномиальным распределением.
- Логит f(x)=log(x / (1−x)). Подходит только для биномиального или полиномиального распределения.
- Отрицательный лог-лог f(x)=−log(−log(x)). Подходит только для биномиального или полиномиального распределения.
- Пробит f(x)=Φ−1(x), где Φ−1 - кумулятивная функция обратного стандартного нормального распределения. Подходит только для биномиального или полиномиального распределения.
- Степенная f(x)=x α, if α ≠ 0. f(x)=log(x), если α=0. α - обязательная спецификация числа, которое должно быть действительным числом. Эта функция может использоваться для любых распределений, кроме полиномиального.
Параметр для Твиди Доступен, только если включить радиокнопку Регрессия Твиди или выбрать метод Распределения Твиди. Выберите значение от 1 до 2.