ロジスティック回帰とは
ロジスティック回帰が意思決定を強化するための予測にどのように役立つのかをご覧ください
最新の予測分析ビジネス・ガイド
Project Manager Does Motivational Presentation or Team of Electronics Development Engineers, he Uses Digital Whiteboard with Neural Network, AI and Machine Learning.
ロジスティック回帰とは

このタイプの統計モデル(ロジット・モデルとも呼ばれます)は、分類と予測分析によく使用されます。 ロジスティック回帰は、独立変数の特定のデータ・セットに基づき、投票した、または投票しなかった、などのイベントが発生する確率を推定します。 結果は確率であるため、従属変数は0と1の間に制限されます。 ロジスティック回帰では、ロジット変換がオッズに、つまり、成功の確率を失敗の確率で割ったものに適用されます。 これは、一般に対数オッズ、またはオッズの自然対数とも呼ばれ、このロジスティック関数は次の式で表されます。

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

このロジスティック回帰の方程式では、logit(pi)は従属変数または応答変数であり、xは独立変数です。 このモデルのベータ・パラメーターまたは係数は、通常、最尤推定(MLE)を介して推定されます。 このメソッドは、ログ・オッズの最適な適合を最適化するために、ベータのさまざまな値を複数の反復を通じてテストします。 これらの反復はすべて対数尤度関数を生成し、ロジスティック回帰はこの関数を最大化して最適なパラメーター推定値を見つけようとします。 最適な係数(または複数の独立変数がある場合は複数の係数)が見つかると、各観測値の条件付き確率が計算され、ログに記録され、合計され、予測された確率が得られます。 二項分類の場合、.5未満の確率は0を予測し、0より大きい確率は1を予測します。  モデルが計算されたら、モデルが従属変数をどの程度適切に予測するかを評価することをお勧めします。これは適合度と呼ばれます。 Hosmer–Lemeshow検定は、モデルの適合性を評価するための一般的な方法です。

ロジスティック回帰の解釈

 

ロジスティック回帰データ分析では、対数オッズを理解するのが難しい場合があります。 結果として、ベータ推定値をべき乗することは、結果をオッズ比(OR)に変換するために一般的であり、結果の解釈を容易にします。 ORは、特定のイベントがない場合に発生する結果のオッズと比較して、特定のイベントが発生した場合に結果が発生するオッズを表します。 ORが1より大きい場合、イベントは特定の結果を生成する確率が高くなります。 逆に、ORが1未満の場合、イベントはその結果が発生する確率が低くなります。 上記の式に基づいて、オッズ比の解釈は次のように表すことができます。成功のオッズは、xがc単位増加するごとにexp(cB_1)倍変化します。 例を使用すると、その人が男性であり、男性のオッズ比が.0810であると仮定して、タイタニック号での生存のオッズを推定するとします。 オッズ比は、他のすべての変数を一定に保った場合、男性の生存のオッズが女性と比較して.0810分の1に減少したと解釈します。

 

 

ホワイト・ペーパーを読む(776 KB)
線形回帰とロジスティック回帰

線形回帰とロジスティック回帰はどちらもデータ・サイエンスで最も人気のあるモデルの1つであり、PythonやRなどのオープンソースのツールを使用すると、それらの計算をすばやく簡単に行うことができます。

線形回帰モデルは、連続従属変数と1つ以上の独立変数の間の関係を識別するために使用されます。 独立変数と従属変数が1つしかない場合は、単純線形回帰と呼ばれますが、独立変数の数が増えると、重回帰と呼ばれます。 線形回帰のタイプごとに、データ・ポイントのセットを介して最適な線をプロットしようとします。これは通常、最小二乗法を使用して計算されます。

線形回帰と同様に、ロジスティック回帰も従属変数と1つ以上の独立変数の間の関係を推定するために使用されますが、カテゴリー変数と連続変数についての予測を行うために使用されます。 カテゴリー変数は、trueまたはfalse、yesまたはno、1または0、などです。 測定単位も確率を生成するという点で線形回帰とは異なりますが、ロジット関数はS曲線を直線に変換します。  

両方のモデルは、将来の結果について予測するために回帰分析で使用されますが、線形回帰は通常より理解しやすいです。 線形回帰はまた、ロジスティック回帰がすべての応答カテゴリーにわたる値を表すために適切なサンプルを必要とするので、サンプル・サイズの大きさを必要としません。 より大きな代表的なサンプルがないと、モデルには有意な効果を検出するのに十分な統計的検出力がない可能性があります。

ロジスティック回帰の種類

ロジスティック回帰モデルには3つのタイプがあり、カテゴリー別の応答に基づいて定義されます。

  • 二項ロジスティック回帰:このアプローチでは、応答または従属変数は本質的に二分されます。考えられる結果は2つだけです(例:0または1)。 その使用のいくつかの一般的な例には、電子メールがスパムであるかスパムではないか、または腫瘍が悪性であるか非悪性であるかを予測することが含まれます。 ロジスティック回帰では、これが最も一般的に使用されるアプローチであり、より一般的には、二項分類の最も一般的な分類子の1つです。
  • 多項ロジスティック回帰:このタイプのロジスティック回帰モデルでは、従属変数には3つ以上の可能な結果があります。ただし、これらの値には指定された順序はありません。  例えば、映画スタジオは、映画をより効果的に売るために映画ファンがどのジャンルの映画を見る可能性が高いかを予測したいと考えています。 多項ロジスティック回帰モデルは、スタジオが、人の年齢、性別、および交際状態が好みの映画の種類に与える影響の強さを判断するのに役立ちます。 これによって、スタジオは特定の映画の広告キャンペーンを、それを見に行く可能性のある人々のグループ向けに行うことができます。
  • 序数ロジスティック回帰:このタイプのロジスティック回帰モデルは、応答変数に3つ以上の可能な結果がある場合に利用されますが、この場合、これらの値には定義された順序があります。 序数応答の例には、AからFまでの評価尺度、または1から5までの評価尺度が含まれます。 
データサイエンティストの心の中を垣間見る(776 KB)
ロジスティック回帰と機械学習

機械学習の中では、ロジスティック回帰は教師あり機械学習モデルのファミリーに属します。 また、識別モデルとも見なされます。これは、クラス(またはカテゴリー)を区別しようとするモデルです。 単純ベイズなどの生成アルゴリズムとは異なり、名前が示すように、画像など、予測しようとしているクラスの情報(猫の写真、など)を生成することはできません。

以前、私たちは、ロジスティック回帰が対数尤度関数を最大化してモデルのベータ係数を決定する方法について説明しました。 これは、機械学習のコンテキストではわずかに変化します。 機械学習では、最急降下法のプロセスを使用してグローバルな最大値を見つけるために、損失関数として使用される負の対数尤度です。 これは、上記で説明したのと同じ見積もりに到達するためのもう1つの方法です。

ロジスティック回帰は、特にモデル内に多数の予測変数がある場合、過剰適合する傾向があります。 正則化は通常、モデルが高次元性に悩まされている場合に、パラメーターに大きな係数のペナルティを課すために使用されます。

Scikit-learn(IBM外部へのリンク)は、ロジスティック回帰の機械学習モデルについてさらに学ぶための貴重なドキュメントを提供します。

ロジスティック回帰の使用事例

ロジスティック回帰は、一般的に予測と分類の問題に使用されます。  以下では、いくつかの使用事例をお示しします

  • 不正の検出:ロジスティック回帰モデルは、チームが不正を予測するデータの異常を特定するのに役立ちます。 特定の行動や特性は、不正行為との関連性が高い場合があります。これは、銀行やその他の金融機関が顧客を保護するのに特に役立ちます。 SaaSベースの企業も、ビジネス・パフォーマンスに関するデータ分析を行う際に、データセットから偽のユーザー・アカウントを排除するために、これらの手法を採用し始めています。
  • 病気の予測:医学では、この分析アプローチを使用して、特定の母集団の病気または病気の可能性を予測できます。 医療機関は、特定の病気の傾向が高い個人に予防的ケアを設定できます。
  • チャーン予測:特定の動作は、組織のさまざまな機能におけるチャーンを示している可能性があります。 例えば、人事および管理チームは、組織を離れるリスクのある業績の高い企業が社内にいるかどうかを知りたい場合があります。この種の洞察は、文化や報酬など、社内の問題領域を理解するための会話を促すことができます。 あるいは、販売組織が事業を他に移すリスクがあるのはどのクライアントかを知りたがっている、というケースもあります。 これによって、チームは収益損失を回避するための保持戦略を設定するよう促されることになります。
ロジスティック回帰の成功例 信用リスクを評価する

バイナリー・ロジスティック回帰は、銀行家が信用リスクを評価するのに役立ちます。 あなたは、銀行の融資担当者であり、融資を怠る可能性のある人々の特徴を特定したいと思っていると想像してください。 次に、これらの特性を使用して、信用リスクの良し悪しを特定します。 850人の顧客のデータがあります。 最初の700は、既にローンを受け取っている顧客です。 これら700人のお客様のランダム・サンプルを使用してロジスティック回帰モデルを作成し、残りの150人の顧客を良いリスクまたは悪いリスクとして分類する方法をご覧ください。

銀行業界の利益を増やす

First Tennessee Bankは、IBM SPSSソフトウェアで収益性を高め、クロスセール・キャンペーンで最大600%の増加を達成しました。 この米国の地方銀行のリーダーは、適切な顧客に適切な製品とサービスを提供したいと考えていました。 役立つデータが不足することはありませんが、データを持つことから行動を起こすことへのギャップを埋めることは難しいことでした。 First Tennesseeは、分析ソリューション内で予測分析とロジスティック分析の手法を使用して、すべてのデータについてより深い洞察を得ています。 その結果、意思決定が改善され、顧客とのやり取りが最適化されています。 (1 MB)

関連ソリューション
IBM SPSS Advanced Statistics

単変量と多変量のモデリング手法を使用して複雑な関係を分析すると、より正確な結論に到達します。

SPSS Advanced Statisticsの詳細はこちら
IBM SPSS Modeler

ドラッグ・アンド・ドロップのデータサイエンス・ツールを使用して、投資収益率を高めます。

SPSS Modelerの詳細はこちら
IBM SPSS Regression

カテゴリーの結果を予測し、さまざまな非線形回帰手順を適用します。

Explore SPSS Regression
IBM Watson Studio

AIと機械学習モデルを構築してトレーニングし、データを準備して分析します。これらはすべて、柔軟なハイブリッドクラウド環境で行われます。

Watson Studioの詳細を見る
IBM Watson Discovery

コグニティブ探索、強力なテキスト分析、機械学習機能を使用して、すべての非構造化データをマイニングして探索するためのスマートでシンプルな方法をご利用いただけます。

Watson Discoveryの詳細はこちら
参考情報 IBM SPSS Statistics無料評価版 IBM SPSS Statistics統計解析デモ IBM Watson Studio Localの詳細はこちら