ターゲット (GLE モデル)
これらの設定は、リンク関数を介してターゲット、その分布、および予測因子との関係を定義します。
対象: 対象は必須です。 対象には任意の尺度を設定でき、対象の尺度によって適切な分布とリンク関数が変わります。
- 定義済みの対象を使用: 上流のデータ型ノード (または上流の入力ノードの「データ型」タブ) の対象設定を使用するには、このオプションを選択します。
- カスタム対象を使用: 対象を手動で割り当てる場合は、このオプションを選択します。
- 分母に試行数を使用: 対象の応答が一連の試行内で発生するいくつかのイベントである場合、対象フィールドにはイベント数が含まれます。また試行回数を含んでいる追加フィールドを選択できます。
例えば、新しい農薬をテストするときは、さまざまな濃度の農薬をアリのサンプルに噴霧して死んだアリの数と各サンプルのアリの数を記録します。この場合、死んだアリの数を記録するフィールドは対象 (イベント) フィールドとして指定する必要があり、各サンプル内のアリの数を記録するフィールドは、試行フィールドとして指定する必要があります。アリの数は、各サンプルに対して同じである場合、試行回数は、固定値を使用して指定することができます。
試行回数は、各レコードのイベント数以上である必要があります。イベント数は負でない整数、試行回数は正の整数である必要があります。
- 参照カテゴリをカスタマイズ: カテゴリー対象に参照カテゴリーを選択できます。このことでパラメーター推定値などの一定の出力に影響を与えることができますが、モデルの適合度を変更してはなりません。例えば、対象値がデフォルトで0、1、および 2 となる場合、手順では最後の(最も高い値を持つ)カテゴリー、または 2 を参照のカテゴリーにします。 この場合、パラメーター推定はカテゴリー 2 の尤度に相対 してカテゴリー 0 または 1 の尤度に関連すると解釈されます。 カスタム カテゴリーを指定して、対象がラベルを定義している場合、リストから値を選択して参照カテゴリーを設定することができます。 これは、モデル指定の途中で特定のフィールドがどのようにコーディングされたか正確にわからないときに便利です。
目標分布と線型モデルとのリレーション (リンク): 予測値の値を指定することで、モデルは指定した形状に従う対象値の分布、および指定したリンク関数を使用して予測値と線型に関連する対象値を予期します。 いくつかの共通モデルへのショートカットが提供されます。または、ショートカットのリストにない分布とリンク関数の特定の組み合わせを使用する場合は、「カスタム」設定を選択します。
- 線型モデル: 同一リンクを持つ正規分布を指定します。これは、線型または分散分析モデルを使用して対象が予測される際に有用です。
- ガンマ回帰: 対数リンクを持つガンマ分布を指定します。これは、対象に含まれる値がすべて正の値で、値が大きくなるほどゆがむ場合に使用されます。
- 対数線型: 対数リンクを持つポアソン分布を指定します。これは、対象が一定期間内の出現回数を表すときに使用されます。
- 負の二項回帰: 対数リンクを持つ負の二項分布を指定します。これは、対象と分母が k の成功を観測するために必要な試行回数を表すときに使用されます。
- Tweedie 回帰: 恒等式、対数、またはべき乗のリンク関数を使用する Tweedie 分布を指定します。これは、ゼロと正の実数値が混在する応答をモデル化する場合に役立ちます。これらの分布は、複合ポアソン 分布、複合ガンマ 分布、およびポアソン ガンマ 分布とも呼ばれます。
- 多項ロジスティック回帰: 多項分布を指定します。これは対象が複数カテゴリーの応答である場合に使用されます。 累積ロジットリンク(順序型結果)または一般化ロジット・リンク(マルチカテゴリー名義型回答)を使用します。
- 二項ロジスティック回帰: ロジット・リンクを持つ二項分布を指定します。これは対象がロジスティック回帰モデルで予測される 2 値応答である場合に使用されます。
- 2 値プロビット: プロビット・リンクを持つ二項分布を指定します。これは対象が基礎の正規分布を使用した 2 値応答である場合に使用されます。
- 調査された生存推定値間隔: 補対数-対数リンクを持つ二項分布を指定します。これは終了イベントのない観測がある場合の生存分析で有用です。
- カスタム: 分布とリンク関数の組み合わせを独自に指定します。
分布
これを選択すると、対象の分布が指定されます。 非正規分布と非同一リンク関数を指定する機能は、線型モデルから一般化線型モデルに移行する上での重要な改善点です。分布とリンク関数は多くの組み合わせが可能で、その中のいくつかは特定のデータ・セットに適しているため、経験的理論の考察、または最も適合すると考えられる組み合わせから選択を導き出すことができます。
- 自動: 使用すべき分布がわからない場合はこのオプションを選択します。ノードによってデータが分析され、最適な分布方式が推定されて適用されます。
- 二項分布: この分布は 2 値応答またはイベント数を表す対象にのみ適しています。
- ガンマ分布: この分布は、正の値が大きくなるほどゆがむ正のスケール値を持つ対象に適しています。 データの値が 0 以下または欠損している場合は、対応するケースが分析に使用されません。
- 逆ガウス分布: この分布は、正の値が大きくなるほどゆがむ正のスケール値を持つ対象に適しています。 データの値が 0 以下または欠損している場合は、対応するケースが分析に使用されません。
- 多項分布: この分布は、複数カテゴリーの応答を表す対象に適しています。
モデルの形式は、対象の尺度によって異なります。
名義型対象は、モデル パラメーターの異なるセットが、(参照カテゴリーを除く)対象のカテゴリーごとに推定される名義型多項モデルとなります。特定の予測値に対するパラメーター推定値は、その予測値と参照カテゴリーに相対する対象の各カテゴリーの尤度の関係を示します。
順序型対象は、従来の切片項が、対象カテゴリーの累積確率に関連する閾値パラメーターのセットと置き換えられる順序型多項モデルとなります。
- 負の二項分布: 負の二項回帰では、対数リンクを含む負の二項分布を使用します。対象が高い分散度を持つ出現回数を示す場合に使用する必要があります。
- 正規分布: これは、中心 (平均) 値の周りで値が対称に、ベル型の分布になる連続型対象に適しています。
- ポアソン分布: この分布は一定期間の対象のイベントの発生回数として考えることができ、負ではない整数値の変数に適しています。 データ値が非整数である、0 未満である、または欠損値の場合、対応するケースは分析には使用されません。
- Tweedie: この分布はガンマ分布のポアソン混合によって表すことができる変数に適しています。分布の「混合」とは、連続型分布 (負でない実数値) と離散型分布 (単一値 0 の 正の確率質量) のプロパティーを結合することです。従属変数は 0 またはそれ以上のデータ値を持った数値である必要があります。データの値が 0 より小さい、または欠損している場合は、対応するケースが分析に使用されません。Tweedie 分布のパラメーターの固定値は 1 以上 2 以下のどんな数字でもかまいません。
リンク関数
リンク関数は、モデルを推定できるようにする対象の変換の 1 つです。 使用できる関数は次のとおりです。
- 自動: 使用すべきリンクがわからない場合はこのオプションを選択します。ノードによってデータが分析され、最適なリンク関数が推定されて適用されます。
- 同一: f(x)=x。 対象は変換されません。 このリンクは多項以外のどの分布でも使用できます。
- 補対数-対数: f(x)=log(−log(1−x))。 これは 2 項分布または多項分布にのみ適しています。
- コーチット: f(x) = tan(π (x − 0.5))。 これは 2 項分布または多項分布にのみ適しています。
- 対数: f(x)=log(x)。 このリンクは多項以外のどの分布でも使用できます。
- 対数-補数: f(x)=log(1−x)。 これは 2 項分布にのみ適しています。
- ロジット: f(x)=log(x / (1−x))。 これは 2 項分布または多項分布にのみ適しています。
- 負の対数-対数: f(x)=−log(−log(x))。 これは 2 項分布または多項分布にのみ適しています。
- プロビット: f(x)=Φ−1(x)。Φ−1 は、累積標準正規分布関数の逆関数です。 これは 2 項分布または多項分布にのみ適しています。
- べき乗: f(x)=x α (α ≠ 0 の場合)。 f(x)=log(x) (α が 0 の場合)。α には数値を指定する必要があり、その数値は実数である必要があります。このリンクは多項以外のどの分布でも使用できます。
Tweedie のパラメータ: 「Tweedie 回帰」ラジオ ボタンを選択した場合、または「分布」方法として「Tweedie」を選択した場合にのみ使用できます。1 と 2 の間の値を選択します。