マイIBM

ログイン

ニュースレター

線形判別分析（LDA）とは

2023年11月27日

LDAとは

線形判別分析（LDA）は、複数クラスの分類問題を解決するための、教師あり機械学習で使用されるアプローチです。LDAは、データの次元を削減することで、複数の特徴量を持つ複数のクラスを分離します。この手法は機械学習モデルの最適化に有益なため、データサイエンスにおいて重要です。

線形判別分析は、正規判別分析（NDA）または判別関数分析（DFA）とも呼ばれ、生成モデルのフレームワークに従います。つまり、LDAアルゴリズムは各クラスのデータ分布をモデル化し、ベイズの定理¹を使用して新しいデータ・ポイントを分類します。条件付き確率、つまり他のイベントが発生した場合のイベントの確率を計算するのがベイズの定理です。LDAアルゴリズムは、ベイズの定理を用いて、入力データセットが特定の出力に属するかの確率を計算し、予測を行います。ベイズ統計の概要と、教師あり学習アルゴリズムに与える影響については、ナイーブ・ベイズ分類器を参照してください。

LDAは、2つ以上のクラスのオブジェクトまたはイベントを分離または特徴付ける特徴量の線形結合を識別することで機能します。LDAは、2次元以上のデータを1次元に投影することで、より簡単に分類できるようにします。そのため、この手法は次元削減と呼ばれることもあります。この汎用性により、バイナリー分類に限定されるロジスティック回帰とは異なり、LDAは多クラスのデータ分類問題に使用できます。LDAは、Decision Tree、ランダム・フォレスト、サポート・ベクター・マシン（SVM）などの他の学習分類アルゴリズムの動作を向上させるためによく使用されます。

線形判別分析の起源

線形判別分析（LDA）は、1930年代にRonald Fisher氏が開発し、その後C.R.Rao氏によって複数クラスのバージョンとして簡略化された統計的手法であるフィッシャーの線形判別に基づいています。フィッシャーの線形判別は、2つ以上のクラスのラベル付きオブジェクトやイベントを識別する特徴量の線形結合を特定することを目的としています。

フィッシャーの線形判別は、投影されたデータのクラスを分離することで次元を減らします。分離とは、投影された平均間の距離を最大化し、クラス内の投影された分散を最小限に抑えることを意味します。

LDAの実際の適用例

例えば、銀行がローン申請を承認するか拒否するかを決定しているとします。この決定を行うために、銀行は申請者の信用スコアと年収という2つの特徴量を使用します。

ここでは、2つの特徴量またはクラスが、X-Y軸を持つ2次元（2D）平面上にプロットされます。1つの特徴量だけを使用して承認を分類しようとすると、重複が生じる可能性があります。LDAを使用すると、これら2つのクラス・データ・ポイントを完全に分離する直線を描くことができます。LDAは、X-Y軸を使用して新しい軸を作成し、これを実現します。直線を引くことで異なるクラスを分離し、新しい軸にデータを投影するのです。

LDAは以下の基準に従って新しい軸を作成し、次元を減らします。

2 つのクラスの平均間の距離を最大化します。
個々のクラス内の差異を最小限に抑えます。

LDAの特性と仮定

LDAは、特徴空間（n次元のデータセット）をクラス情報を失うことなく、より小さな空間「k」（kはn - 1以下）に投影することで機能します。LDAモデルは、各クラスのデータについて計算された統計的特性で構成されます。複数の特徴または変数がある場合、これらのプロパティーは多変量ガウス分布³に基づいて計算されます。

多変量には以下が含まれます。

平均
共分散行列（各変数や特徴量がクラス内の他の変数とどのように関連しているかを測定します）

データ・セットから推定された統計的特性はLDA関数に供給され、予測を行い、LDAモデルを作成します。モデルには以下のような前提があるため、制約があることに留意します。

入力データ・セットは、データ点をプロットするとベル型の曲線になるガウス分布であること。
データ・セットは線形に分離可能である、つまりLDAはデータ・ポイントを分離する直線または決定境界を描くことができること。
各クラスには同じ共分散行列があります。

上記の理由から、LDAは高次元の特徴空間ではうまく機能しない可能性があります。

固有ベクトルと固有値の役割

次元削減ではデータ・ポイントを直線で分離します。数学的には、線形変換は固有ベクトルと固有値を使用して分析されます。複数の特徴量を持つデータ・セットをマッピングした結果、多次元の散布図が作成されたと想定してください。固有ベクトルは散布図内の「方向」を、固有値はこの方向データの重要性を示します。固有値が高いということは、関連する固有ベクトルがより重要であることを意味します。

次元削減中、固有ベクトルはデータ・セットから計算され、次の2つの散布図に収集されます。

クラス間散布図行列（各クラス内のデータ分散に関する情報）
クラス内散布図行列（クラスがそれ自体にどのように分散するか）

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

今すぐ登録

線形判別分析を実装する準備

LDAを効果的に使用するには、データ・セットを事前に準備することが不可欠です。LDAを実装するための手順とベスト・プラクティスは次のとおりです。

1. データが正規化され、中心化されるようデータを前処理する

これは、取得する線形判別の数を特定するLDAのnコンポーネント・パラメーターを渡すことで実現できます。

2. 低次元スペースで適切な次元数を選択する

これは、取得する線形判別の数を特定するLDAのnコンポーネント・パラメーターを渡すことで実現できます。

3. モデルを正則化する

正則化は、統計モデルがトレーニング・データに対して完全に適合し、その精度を低下させる過剰適合を防ぐことを目的としています。

4. クロス・バリデーションを使用しモデルのパフォーマンスを評価する

実際のクラス値を行、予測クラス値を列として混同行列をプロットすることで、LDAのような分類器を評価することができます。混同行列は、分類器が2つのクラスを混同しているかどうか、つまりあるクラスを別のクラスとして誤ってラベル付けしているかどうかを簡単に確認することができます。例えば、0から9までの画像を予測する10×10の混同行列を考えてみます。Y軸の行に実際の値がプロットされ、予測の値はX軸上の列にプロットされます。10×10の混同行列の例で、分類器が4と9の画像を何回混同したかを見るには、⁴行目と⁹列目をチェックします。

線形判別関数の仕組み

線形判別関数は、特徴量に基づいてデータ・ポイントを分離し、それらをさまざまなクラスまたはカテゴリーに分類することで、分類問題における意思決定を支援します。計算のプロセスの主な手順は以下のとおりです。

クラス間の差異の計算

クラス間分散は、クラス間の分離可能性、つまりクラス平均間の距離です。

クラス内での差異の計算

クラス内分散は、クラス平均とサンプルの間の距離です。

データの低次元空間への投影

これにより、クラス間の分散が最大化され、クラス内の分散が最小限に抑えられます。2つのクラスに対する線形判別関数を数学的に表すと、次のようになります。

δ(x) = x * ( σ² * (μ₀-μ₁) - 2 * σ² * (μ₀²-μ₁²) + ln(P(w₀) / P(w₁)))

Where:

δ(x)は線形判別関数を表します。
xはインプット・データ・ポイントを表します。
μ₀とμ₁は2つのクラスの平均を意味します。
σ ²は、クラス内共通分散です。
P(ω₀) and P(ω₁) は、2 つのクラスの事前確率です。

LDAの適用例

この方程式を使用して、ローン承認の例を見てみましょう。要約すると、銀行はローン申請を承認するか拒否するかを決定します。この決定を行うために、銀行は申込者の信用スコア（x）と年収という2つの特徴量を使用します。同銀行は、過去のローン申請やローンの承認状況に関する履歴データを持っています。

クラスω₀は「ローンの拒否」を表します。
クラスω₁は「ローンの承認」を表します。

線形判別関数を用いれば、銀行は各ローン申請に対してスコア（δ(x)）を計算することができます。

線形判別関数の方程式は、以下のように似ているかもしれません。

δ(x) = x * ( σ² * (μ₀-μ₁) - 2 * σ² * (μ₀²-μ₁²) + ln(P(w₀) / P(w₁)))

xは申請者のクレジット・スコアと年収を表します。
μ₀とμ₁は、「ローン拒否」と「ローン承認」の2つのクラスの特徴量の平均です。
σ ²は、クラス内共通分散です。
P(ω₀)は「ローン拒否」の事前確率、P(ω1)は「ローン承認」の事前確率です。

銀行は、ローン申請ごとに線形判別関数で計算を行います。

δ(x)が正であれば、ローン申請が承認される可能性が高いことを示唆します。
δ(x)が負の場合、ローン申請が拒否される可能性が高いことを示唆します。

これにより、銀行は融資承認プロセスを自動化し人間が持つ偏見を最小限に抑えながら、より迅速で一貫した意思決定を行うことができます。

線形判別分析の活用

これらは、LDAを活用して複雑な問題に取り組み、組織がより良い意思決定を行えるようになる典型的なシナリオです。

金融業界における信用リスク評価

リスクを低減するために、金融機関は顧客によるローン返済滞納を特定し、最小限に抑える必要があります。LDAは、財務面と行動データを精査することで、信用力のある申請者とローンを債務不履行にする可能性のある申請者の特定を実現します。

医療における病気診断

効果的な治療には、迅速かつ正確な疾患診断が不可欠です。病院や医療従事者は、膨大な量の医療データを読み解くする必要があります。LDAは、患者データ内のパターンと関係性を特定することで、複雑なデータ・セットを簡素化し、診断の精度を向上させます。

eコマースにおける顧客セグメンテーション

効果的なマーケティングのためには、Eコマース事業者は異なる顧客基盤を分類できなければなりません。LDAは顧客をセグメント化する上で極めて重要であり、Eコマース企業が異なる顧客グループに対し、それぞれに合ったマーケティング戦略を策定できるようにします。その結果、よりパーソナライズされたショッピング体験が提供でき、顧客のロイヤルティーと売上が向上します。

製造における品質管理

欠陥を最小限に抑えながら高品質の商品を生産することは、重要な課題です。機械からセンサー・データ取得しLDAを使用して分析することで、欠陥に関連するパターンを特定できます。リアルタイムで異常を検出することで、メーカーは即座に是正措置を講じることができ、製品の品質を向上させ、無駄を削減できます。

マーケティングにおけるキャンペーンの最適化

パーソナライズされたコンテンツを適切な視聴者に届けることで、広告予算の費用対効果を最大化できますが、それぞれの視聴者セグメントの特定は難しいことが多いです。LDAは、顧客の属性と行動を分類することでこのプロセスを簡略化し、広告キャンペーンのカスタマイズ性を高めることが可能です。このアプローチは、投資対効果（ROI）の向上と顧客体験の向上につながります。

線形判別分析とPython

Pythonを使用した線形判別分析をさらに深く掘り下げ、scikit-learnライブラリーを活用するためには、IBM watsonx™でPythonとscikit-learnを使用して分類アルゴリズムを学習する方法をご覧ください。このチュートリアルは、Pythonとscikit-learn（別称sklearn）を使用して分類ベースの機械学習の問題を解決するための基本に役立ちます。

ステップバイステップのチュートリアルでは、まず、Irisデータ・セットの操作に必要なPythonライブラリをインポートし、データの前処理を実行してLDAモデルを作成し、評価します。

<Python code snippet>

numpyをnpとしてインポート
pandasをpdとしてインポート
matplotlib.pyplotをpltとしてインポート
sklearnをインポート
seabornをsnsとしてインポート
sklearn.preprocessingからStandardScaler, LabelEncoderをインポート
klearn.model_selectionからtrain_test_splitをインポート
sklearn.discriminant_analysisからLinearDiscriminantAnalysisをインポート
sklearn.ensembleからRandomForestClassifierをインポート
sklearn.metricsからaccuracy_score, confusion_matrixをインポート

ライブラリがインストールされていない場合、pip installを使用することで解決できます。

sklearn.discriminant_analysis.LinearDiscriminantAnalysis.を使用したPython実装の主要なパラメーター、属性、および一般的な例の概要については、このscikit-learnドキュメントも参照してください。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

事例を見る

線形判別分析を使用するメリットとデメリット

線形判別分析（LDA）の利点と限界を理解することは、様々な分類問題にLDAを適用する際に非常に重要です。トレードオフに関する知識を持っていることで、データサイエンティストや機械学習の専門家は、特定のタスクに対する適合性を、十分な情報に基づいて決定できます。

主な利点

シンプルさと計算効率の利用：LDAはシンプルかつ強力なアルゴリズムであり、理解も実装も比較的簡単なので、機械学習が初めての人にも利用しやすいです。効率的な計算により、迅速に結果を得ることができます。
高次元データの管理：LDAは、特徴量の数がトレーニングサンプルの数よりも多い場合に有効です。つまり、LDAは、データが高次元であることが多いテキスト分析、画像認識、ゲノミクスなどの用途で真価を発揮します。
多重共線性の処理：LDAは、異なる特徴間に高い相関が存在する多重共線性に対処できます。情報の整合性を維持しながら、データを低次元空間に変換します。

主なデメリット

− 平均分布の共有：クラス分布が平均を共有する場合、LDAは問題に直面します。双方のクラスを直線的に分離する新しい軸の作成が困難だからです。その結果、LDAは統計的特性が重複するクラス間を上手く識別できないことがあります。例えば、花びらの長さと幅が極めてよく似た2種類の花の場合を考えてみましょう。LDAでは、この2つの特徴量のみに基づいて花を分類するのは難しいことがあります。ここでは、非線形判別分析法などの別の手法を採る方が良いでしょう。

− ラベルなしデータへの不適合：LDAは教師あり学習アルゴリズムとして適用されます。つまり、ラベル付きデータを分類または分離するのです。対照的に、LDA以外の次元削減技術である主成分分析（PCA）は、クラスラベルは考慮せず、分散を保持します。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

参考情報

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

教師あり学習モデル

サポート・ベクトル・マシンや確率的分類器などの教師あり学習アプローチを調査します。

生成AIを試してみる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

脚注

¹ James Joyce著、 「Bayes' Theorem」、 Stanford Encyclopedia of Philosophy、2003年

²Dan A. Simovici著、「Lecture notes on Fisher Linear Discriminant Name」、2013年

³Penn State Eberly College of Science、Linear Discriminant Analysis、2023年

⁴J. T. Oates著、「Lecture notes on Linear Discriminant Analysis」、2014年

⁵Guangliang Chen著、線形判別分析（LDA）の講義ノート、2020年

^{6, 7}sci-kit learn、Linear and Quadratic Discriminant Analysis、2023年