このタイプの統計モデル(ロジット・モデルとも呼ばれます)は、分類と予測分析によく使用されます。 ロジスティック回帰は、独立変数の特定のデータ・セットに基づき、投票した、または投票しなかった、などのイベントが発生する確率を推定します。 結果は確率であるため、従属変数は0と1の間に制限されます。 ロジスティック回帰では、ロジット変換がオッズに、つまり、成功の確率を失敗の確率で割ったものに適用されます。 これは、一般に対数オッズ、またはオッズの自然対数とも呼ばれ、このロジスティック関数は次の式で表されます。
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
このロジスティック回帰の方程式では、logit(pi)は従属変数または応答変数であり、xは独立変数です。 このモデルのベータ・パラメーターまたは係数は、通常、最尤推定(MLE)を介して推定されます。 このメソッドは、ログ・オッズの最適な適合を最適化するために、ベータのさまざまな値を複数の反復を通じてテストします。 これらの反復はすべて対数尤度関数を生成し、ロジスティック回帰はこの関数を最大化して最適なパラメーター推定値を見つけようとします。 最適な係数(または複数の独立変数がある場合は複数の係数)が見つかると、各観測値の条件付き確率が計算され、ログに記録され、合計され、予測された確率が得られます。 二項分類の場合、.5未満の確率は0を予測し、0より大きい確率は1を予測します。 モデルが計算されたら、モデルが従属変数をどの程度適切に予測するかを評価することをお勧めします。これは適合度と呼ばれます。 Hosmer–Lemeshow検定は、モデルの適合性を評価するための一般的な方法です。
ロジスティック回帰データ分析では、対数オッズを理解するのが難しい場合があります。 結果として、ベータ推定値をべき乗することは、結果をオッズ比(OR)に変換するために一般的であり、結果の解釈を容易にします。 ORは、特定のイベントがない場合に発生する結果のオッズと比較して、特定のイベントが発生した場合に結果が発生するオッズを表します。 ORが1より大きい場合、イベントは特定の結果を生成する確率が高くなります。 逆に、ORが1未満の場合、イベントはその結果が発生する確率が低くなります。 上記の式に基づいて、オッズ比の解釈は次のように表すことができます。成功のオッズは、xがc単位増加するごとにexp(cB_1)倍変化します。 例を使用すると、その人が男性であり、男性のオッズ比が.0810であると仮定して、タイタニック号での生存のオッズを推定するとします。 オッズ比は、他のすべての変数を一定に保った場合、男性の生存のオッズが女性と比較して.0810分の1に減少したと解釈します。
線形回帰とロジスティック回帰はどちらもデータ・サイエンスで最も人気のあるモデルの1つであり、PythonやRなどのオープンソースのツールを使用すると、それらの計算をすばやく簡単に行うことができます。
線形回帰モデルは、連続従属変数と1つ以上の独立変数の間の関係を識別するために使用されます。 独立変数と従属変数が1つしかない場合は、単純線形回帰と呼ばれますが、独立変数の数が増えると、重回帰と呼ばれます。 線形回帰のタイプごとに、データ・ポイントのセットを介して最適な線をプロットしようとします。これは通常、最小二乗法を使用して計算されます。
線形回帰と同様に、ロジスティック回帰も従属変数と1つ以上の独立変数の間の関係を推定するために使用されますが、カテゴリー変数と連続変数についての予測を行うために使用されます。 カテゴリー変数は、trueまたはfalse、yesまたはno、1または0、などです。 測定単位も確率を生成するという点で線形回帰とは異なりますが、ロジット関数はS曲線を直線に変換します。
両方のモデルは、将来の結果について予測するために回帰分析で使用されますが、線形回帰は通常より理解しやすいです。 線形回帰はまた、ロジスティック回帰がすべての応答カテゴリーにわたる値を表すために適切なサンプルを必要とするので、サンプル・サイズの大きさを必要としません。 より大きな代表的なサンプルがないと、モデルには有意な効果を検出するのに十分な統計的検出力がない可能性があります。
ロジスティック回帰モデルには3つのタイプがあり、カテゴリー別の応答に基づいて定義されます。
機械学習の中では、ロジスティック回帰は教師あり機械学習モデルのファミリーに属します。 また、識別モデルとも見なされます。これは、クラス(またはカテゴリー)を区別しようとするモデルです。 単純ベイズなどの生成アルゴリズムとは異なり、名前が示すように、画像など、予測しようとしているクラスの情報(猫の写真、など)を生成することはできません。
以前、私たちは、ロジスティック回帰が対数尤度関数を最大化してモデルのベータ係数を決定する方法について説明しました。 これは、機械学習のコンテキストではわずかに変化します。 機械学習では、最急降下法のプロセスを使用してグローバルな最大値を見つけるために、損失関数として使用される負の対数尤度です。 これは、上記で説明したのと同じ見積もりに到達するためのもう1つの方法です。
ロジスティック回帰は、特にモデル内に多数の予測変数がある場合、過剰適合する傾向があります。 正則化は通常、モデルが高次元性に悩まされている場合に、パラメーターに大きな係数のペナルティを課すために使用されます。
Scikit-learn(IBM外部へのリンク)は、ロジスティック回帰の機械学習モデルについてさらに学ぶための貴重なドキュメントを提供します。
ロジスティック回帰は、一般的に予測と分類の問題に使用されます。 以下では、いくつかの使用事例をお示しします
バイナリー・ロジスティック回帰は、銀行家が信用リスクを評価するのに役立ちます。 あなたは、銀行の融資担当者であり、融資を怠る可能性のある人々の特徴を特定したいと思っていると想像してください。 次に、これらの特性を使用して、信用リスクの良し悪しを特定します。 850人の顧客のデータがあります。 最初の700は、既にローンを受け取っている顧客です。 これら700人のお客様のランダム・サンプルを使用してロジスティック回帰モデルを作成し、残りの150人の顧客を良いリスクまたは悪いリスクとして分類する方法をご覧ください。
First Tennessee Bankは、IBM SPSSソフトウェアで収益性を高め、クロスセール・キャンペーンで最大600%の増加を達成しました。 この米国の地方銀行のリーダーは、適切な顧客に適切な製品とサービスを提供したいと考えていました。 役立つデータが不足することはありませんが、データを持つことから行動を起こすことへのギャップを埋めることは難しいことでした。 First Tennesseeは、分析ソリューション内で予測分析とロジスティック分析の手法を使用して、すべてのデータについてより深い洞察を得ています。 その結果、意思決定が改善され、顧客とのやり取りが最適化されています。 (1 MB)
単変量と多変量のモデリング手法を使用して複雑な関係を分析すると、より正確な結論に到達します。
ドラッグ・アンド・ドロップのデータサイエンス・ツールを使用して、投資収益率を高めます。
カテゴリーの結果を予測し、さまざまな非線形回帰手順を適用します。
AIと機械学習モデルを構築してトレーニングし、データを準備して分析します。これらはすべて、柔軟なハイブリッドクラウド環境で行われます。
コグニティブ探索、強力なテキスト分析、機械学習機能を使用して、すべての非構造化データをマイニングして探索するためのスマートでシンプルな方法をご利用いただけます。