广义线性模型

广义线性模型对一般线性模型进行了扩展,这样因变量通过指定的关联函数与因子和协变量线性相关。 另外,该模型允许因变量呈非正态分布。 它涵盖广泛使用的统计模型,例如用于正态分布响应的线性回归、用于二分类数据的 Logistic 模型、用于计数数据的对数线性模型、用于间隔检查生存数据的互补双对数模型,以及许多其他通过其非常通用的模型规划的统计模型。

示例。 运输公司可以使用广义线性模型,对在不同期间建造的一些轮船类型的损坏统计采用泊松回归,其结果模型可帮助确定哪些轮船类型最容易损坏。

汽车保险公司可以使用广义线性模型,对汽车损坏理赔采用伽玛回归,其结果模型可帮助确定对理赔额度贡献最大的因素。

医疗研究人员可以使用广义线性模型,对间隔检查生存数据采用互补双对数回归,以预测医疗条件再次出现的时间。

广义线性模型数据注意事项

数据。 响应可以是刻度数据、计数数据、二分类数据或试验事件数据。 假设因子是分类型的。 假设协变量、刻度权重和偏移量是刻度型的。

假设。 假设个案为独立实测值。

获取广义线性模型

此功能需要 定制表和高级统计信息

从菜单中选择:

分析 > 广义线性模型 > 广义线性模型 线性模型 ...

注意: 红色标记的字段为必填项。 在所有必填字段中输入有效值后," 粘贴 "和" 确定 "按钮将被启用。

  1. 指定分布和关联函数(请参见下文获得有关各种选项的详细信息)。
  2. 响应 选项卡上,选择因变量。
  3. 预测变量 选项卡上,选择用于预测因变量的因子和协变量。
  4. 模型 选项卡上,使用所选因子和协变量指定模型效应。

“模型类型”选项卡允许您为模型指定分布和链接函数,为按响应类型分类的几种常用模型提供快捷方式。

模型类型

标度响应。 可用选项有:

  • 线性。 将正态指定为分布,将恒等指定为关联函数。
  • 具有对数链接的伽玛。 将伽玛指定为分布,将对数指定为关联函数。

有序响应。 可用选项有:

  • 有序 logistic。 将多项(序数)指定为分布,将累积 logit 指定为关联函数。
  • 有序 probit。 将多项(序数)指定为分布,将累积 probit 指定为关联函数。

计数。 可用选项有:

  • 泊松对数线性。 将泊松指定为分布,将对数指定为关联函数。
  • 带对数链接的负二项式。 将负二项式(拥有值为 1 的辅助参数)指定为分布,将对数指定为关联函数。 要使过程估计辅助参数的值,指定一个拥有负二项式分布的定制模型,并在参数组中选择估计值

二进制响应或事件/试验数据。 可用选项有:

  • 二元 Logistic。 将二项式指定为分布,将 Logit 指定为关联函数。
  • 二元概率单位。 将二项式指定为分布,将 Probit 指定为关联函数。
  • 区间删失生存。 将二项式指定为分布,将互补双对数指定为关联函数。

混合。 可用选项有:

  • 具有日志链接的 Tweedie。 将 Tweedie 指定为分布,将对数指定为关联函数。
  • 具有身份链接的 Tweedie。 将 Tweedie 指定为分布,将恒等指定为关联函数。

定制。 指定您自己的分布和关联函数的组合。

分布

此选项指定因变量的分布。 指定非正态分布和非恒等关联函数的功能是广义线性模型相对一般线性模型的重要改进。 分布-关联函数可能存在多种组合,其中一些适合任何给定的数据集,因此可以根据先验理论的要求进行选择,或选择最合适的组合。

  • 二项式。 此分布仅适合表示二元响应或事件数量的变量。
  • 伽玛。 该分布适用于具有正刻度值并向更大的正值偏度的变量。 如果数据值小于等于 0 或缺失,那么分析中不会使用相应的个案。
  • 逆高斯。 该分布适用于具有正刻度值并向更大的正值偏度的变量。 如果数据值小于等于 0 或缺失,那么分析中不会使用相应的个案。
  • 负二项式。 该分布可以视为观察 k 成功所需的试验次数,适合具有非负整数值的变量。 如果数据值是非整数、小于 0 或缺失,那么分析中不会使用相应的个案。 负二项式分布辅助参数的值可以为大于等于 0 的任何数字;您可以将其设置为固定值或者允许通过过程对其进行估算。 辅助参数设置为 0 时,使用此分布相当于使用泊松分布。
  • 正常。 该分布适合围绕某个中间值(平均值)呈对称钟型分布的标度变量。 因变量必须是数值型变量。
  • 泊松。 该分布可视为被观察事件在固定时间段内发生的次数,适合具有非负整数值的变量。 如果数据值是非整数、小于 0 或缺失,那么分析中不会使用相应的个案。
  • 推特 此分布适合由伽玛分布泊松混合表示的变量;之所以称为?混合?分布,是因为它兼具连续(取非负实数值)和离散分布(在单个值 0 处为正概率质量)的属性。 因变量必须是数值型变量,数据值大于或等于零。 如果数据值小于零或缺失,那么分析中不会使用相应的个案。 Tweedie 分布参数的固定值可以是任何大于 1 且小于 2 的数字。
  • 多项。 此分布适合表示序数响应的变量。 因变量可以是数值或字符串,它必须至少有两个不同有效数据值。

关联函数

关联函数是允许模型估计的因变量的转换。 可用函数有:

  • 身份。 f(x) =x。 因变量不转换。 该关联可用于任何分布。
  • 互补双对数。 f(x)=log(−log(1−x))。 该函数只适用于二项式分布。
  • 累积 Cauchit。 f(x) = tan(π (x - 0.5)),适用于每个响应类别的累积概率。 该函数只适用于多项式分布。
  • 累积互补双对数。 f(x)=ln(−ln(1−x)),适用于每个响应类别的累积概率。 该函数只适用于多项式分布。
  • 累积 Logit。 f(x)=ln(x / (1−x)),适用于每个响应类别的累积概率。 该函数只适用于多项式分布。
  • 累积负对数。 f(x)=−ln(−ln(x)),适用于每个响应类别的累积概率。 该函数只适用于多项式分布。
  • 累积概率。 f(x)=Φ−1(x),适用于每个响应类别的累积概率,其中 Φ−1 是逆标准正态累积分布函数。 该函数只适用于多项式分布。
  • 日志。 f(x) = log (x)。 该关联可用于任何分布。
  • 对数补。 f(x)=log(1−x)。 该函数只适用于二项式分布。
  • Logit。 f(x)=log(x / (1−x))。 该函数只适用于二项式分布。
  • 负二项式。 f(x)=log(x / (x+k −1)),其中 k 是负二项分布的辅助参数。 该函数只适用于负二项式分布。
  • 负对数。 f(x)=−log(−log(x))。 该函数只适用于二项式分布。
  • 几率幂。 f(x) = [(x/(1 −x))α− 1 ]/α ,如果 α ≠ 0。 f(x) = log (x) ,如果 α = 0。 α 是必需的数字规格,必须是实数。 该函数只适用于二项式分布。
  • Probit。 f(x)=Φ−1(x),其中 Φ−1 是逆标准正态累积分布函数。 该函数只适用于二项式分布。
  • Power. f(x)=x α,如果 α ≠ 0。f(x)=log(x),如果 α=0。α 是必需的数字规范,并且必须是实数。 该关联可用于任何分布。

此过程将粘贴 GENLIN 命令语法。