ロジスティック回帰とは

ロジスティック回帰は、与えられた独立変数のデータ・セットに基づいて、投票／未投票などのイベントの発生確率を推定します。

このタイプの統計モデル（ロジット・モデルとも呼ばれる）は、分類や予測分析によく使用されます。結果は確率であるため、従属変数は0と1の間に制限されます。ロジスティック回帰では、ロジット変換がオッズ、つまり、成功の確率を失敗の確率で割ったものに適用されます。これは、一般に対数オッズ、またはオッズの自然対数とも呼ばれ、そのロジスティック関数は次の式で表されます。

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

このロジスティック回帰式では、logit(pi)が従属変数または応答変数、xが独立変数です。このモデルのベータ・パラメーター、つまり係数は、通常、最尤推定（MLE）を介して推定されます。この手法では、繰り返し実行することによりさまざまなベータ値をテストし、対数オッズを最適化します。これらの反復はすべて対数尤度関数を生成し、ロジスティック回帰ではこの関数を最大化して最適なパラメーター推定値を見つけようとします。最適な係数（複数の独立変数がある場合は複数の係数）が見つかると、各観測値の条件付き確率が計算され、ログに記録され、合計され、予測確率が得られます。2項分類の場合、0.5未満の確率は0を予測し、0より大きい確率は1を予測します。モデルが計算されたら、モデルが従属変数をどの程度正確に予測するかを評価することをお勧めします。これは適合度と呼ばれます。Hosmer-Lemeshow検定は、モデルの適合性を評価するための一般的な方法です。

エンタープライズAIの拡張においてAIガバナンスがビジネス上不可欠である理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

関連コンテンツ

Prestoに関する電子ブックに登録する

ロジスティック回帰の解釈

ロジスティック回帰データ分析では、対数オッズを理解するのが難しい場合があります。結果として、ベータ推定値をべき乗することは、結果をオッズ比（OR）に変換するために一般的であり、結果の解釈を容易にします。ORは、特定のイベントがない場合に発生する結果のオッズと比較して、特定のイベントが発生した場合に結果が発生するオッズを表します。ORが1より大きい場合、イベントで特定の結果が発生する確率が高くなります。逆に、ORが1未満の場合、イベントでその結果が発生する確率が低くなります。上記の式に基づいて、オッズ比の解釈は次のように表すことができます。成功のオッズは、xがc単位増加するごとにexp(cB_1)倍変化します。例を挙げると、男性のオッズ比が.0810であると仮定して、男性のタイタニック号での生存のオッズを推定するとします。ここで、オッズ比は、他のすべての変数を一定に保った場合、男性の生存のオッズが女性と比較して.0810分の1に減少したと解釈できます。

ホワイトペーパーを読む

線形回帰とロジスティック回帰

線形回帰とロジスティック回帰はどちらもデータ・サイエンスで最も人気のあるモデルの1つであり、PythonやRなどのオープンソースのツールを使用すると、それらの計算を迅速かつ簡単に行うことができます。

線形回帰モデルは、連続型の従属変数と1つ以上の独立変数の間の関係を識別するために使用されます。独立変数と従属変数が1つのみの場合は、単純線形回帰と呼ばれ、独立変数の数が増えると、重回帰と呼ばれます。線形回帰のタイプごとに、データ・ポイントのセットを介して最適な線をプロットしようとします。これは通常、最小二乗法を使用して計算されます。

線形回帰と同様に、ロジスティック回帰も従属変数と1つ以上の独立変数の間の関係を推定するために使用されます。ただし、線形回帰とは異なり、連続変数ではなくカテゴリー変数について予測するために使用します。カテゴリー変数とは、trueまたはfalse、yesまたは no、1または0などです。確率を生成するため測定単位も線形回帰とは異なりますが、ロジット関数でS字型の曲線を直線に変換します。

どちらのモデルも回帰分析で将来の結果を予測するために使用されますが、通常は線形回帰の方が結果の解釈は容易です。また、線形回帰がそれほど大きなサイズのサンプルを必要としない一方、ロジスティック回帰はすべての応答カテゴリーを代表する値のサンプルが必要です。大規模な代表サンプルがないと、ロジスティック回帰に十分な検出力がなく、統計的に有意な結果を得られない可能性があります。

ロジスティック回帰の種類

ロジスティック回帰には、カテゴリー応答に基づく3種類のモデルがあります。

2項ロジスティック回帰：このアプローチでは、応答変数または従属変数は本質的に2分変数で、予測可能な結果は2つだけです（例：0または1）。よく使用される例としては、Eメールがスパムか非スパムか、腫瘍が悪性か良性かを予測することが挙げられます。ロジスティック回帰ではこれが最もよく使用されるアプローチであり、より一般的には、2項分類で非常によく使用される分類器の1つです。
多項ロジスティック回帰：このロジスティック回帰モデルでは、従属変数の予測可能な結果は3つ以上あります。ただし、これらの値には順序が指定されていません。例えば、映画会社は、映画をより効果的に売り込むために、映画ファンがどのジャンルの映画を見る可能性が高いかを予測したいと考えています。多項ロジスティック回帰モデルは、年齢、性別、交際ステータスが、好みの映画のタイプに及ぼす影響の大きさを判断するのに役立ちます。これによって、この会社は特定の映画の広告キャンペーンを、それを観に行く可能性が高いグループに向けて実施することができます。
順序ロジスティック回帰：このロジスティック回帰モデルは、応答変数に3つ以上の可能な結果があるときに利用されますが、この場合、これらの値には定義済みの順序があります。序数応答の例には、AからFまでの評価尺度、1から5までの評価尺度などがあります。

データサイエンティストの心の中を垣間見る

ロジスティック回帰と機械学習

機械学習の中で、ロジスティック回帰は教師あり機械学習モデル・ファミリーに属します。これは、クラス（またはカテゴリー）を判別することが目的の識別モデルともみなされます。単純ベイズなどの生成アルゴリズムとは異なり、その名が示すように、画像など、予測しようとしているクラスの情報（例：猫の写真）を生成することはできません。

上記で、ロジスティック回帰がどのように対数尤度関数を最大化してモデルのベータ係数を特定するかを説明しましたが、これは、機械学習のコンテキストでは少し異なります。機械学習では、負の対数尤度が損失関数として使用され、勾配降下法のプロセスを使用して全域的最大値を見つけます。方法は違いますが、結果は、前述したものと同じ推定値になります。

ロジスティック回帰ではまた、特にモデル内に多数の予測変数がある場合に、過剰適合が生じる傾向があります。そのため、高次元データの解析モデルでは通常、パラメーターの係数が大きい場合はペナルティを課すための正則化を使用します。

Scikit-learn（ibm.com外部へのリンク）は、ロジスティック回帰機械学習モデルについてさらに学ぶための貴重な資料を提供しています。

ロジスティック回帰のユースケース

ロジスティック回帰は、予測および分類問題の分析によく使用され、そのユースケースには次のようなものがあります。

不正の検出：ロジスティック回帰モデルは、不正の予兆となるデータの異常を特定するのに役立ちます。特定の行動や特徴は不正行為との関連性が高い場合があり、これは銀行やその他の金融機関が顧客を保護する上で特に役に立ちます。SaaSベースの企業も、業績に関するデータ分析を行う際に、データ・セットから偽のユーザーアカウントを排除するためにこれらの手法を採用し始めています。
疾病予測：医学の分野では、この分析アプローチを使用して、特定の集団の疾病リスクを予測できます。医療機関は、特定の病気になる傾向が高い個人に対して予防医療を設定して取り組めます。
チャーン予測：組織のさまざまな部門において、特定の行動がチャーン（離反）の兆候を示すことがあります。例えば、人事チームや管理チームは、優秀な人材が退職するリスクがあるかどうかを知りたいでしょう。この種の分析情報は、企業文化や報酬など、社内の問題領域を理解するための会話を促すことができます。また、営業組織は、どの既存顧客に仕事を他社に回すリスクがあるかを知りたいでしょう。チャーン予測の結果、チームは収益の損失を避けるためにリテンション戦略を立てるかもしれません。

ロジスティック回帰分析の成功例

信用リスクの評価

2項ロジスティック回帰分析は、銀行が顧客の信用リスクを評価するのに役立ちます。どのようにランダムサンプルを使用してロジスティック回帰モデルを作成し、顧客を高リスクと低リスクに分類するかをご覧ください。

銀行業界における収益向上

First Tennessee Bankは、IBM SPSSソフトウェアで予測分析とロジスティック分析を使用することで収益性を向上させ、クロスセル・キャンペーンで最大600％の増益を達成しました。First Tennesseeでは、1つの分析ソリューションで予測分析とロジスティック分析の手法を使用して、すべてのデータに対するより深い洞察を得ています。