統計的機械学習とは

執筆者

Developer Advocate

IBM

統計的機械学習

はじめに：機械学習における統計的思考とは

現代の生成AIの時代では、実践者が単純な線形回帰から複雑で洗練されたニューラル・ネットワークや生成型の大規模言語モデル（LLM）に至るまで機械学習（ML）モデルを構築しています。また、顧客離れの予測、推奨システム、その他のユースケースのために、ユビキタスなデータサイエンスとデータ分析も行われています。ただし、機械学習（ML）モデルでも、大規模なデータセットと強力なアルゴリズムで実行されているように見えるかもしれませんが、内部では、基本的には統計的なプロセスです。

機械学習は、ベイズ法、線形代数、検証戦略など、プロセスに構造と厳密性を与える統計学の手法と数学的ツールに基づいて構築されています。非線形分類器の構築、推奨システムの調整、Pythonでの生成AIモデルの開発は、いずれも統計的機械学習の中核的な原則を応用したものです。

モデルをトレーニングする際は常にデータからパラメーターを推定しています。テストする際には、このパターンは本物なのかそれとも単なるランダムなノイズなのか、評価指標を使用して誤差を定量化するにはどうすればよいか、を問いかけることになります。これらは統計に関する質問です。統計的検定のプロセスは、モデル・メトリクスの構築と解釈における自信を導入するのに役立ちます。これらの前提条件を理解することは、単なる基礎ではなく、コンピューター・サイエンスや数学的推論に基づいた堅牢で解釈可能なAIシステムを構築するために不可欠です。

この記事では、数学をわかりやすく説明するだけでなく、機械学習システムを自信を持って構築、デバッグ、解釈するために必要な精神モデルを備えた最新のMLの背後にある統計の柱を紐解きます。

相互に関連する6つの概念について説明します。

1. 統計：基本的には、統計とは何か、また最新のAIでどのように使用されているか？

2. 確率：データの不確実性をどのように定量化するか？

3. 分布：データの振る舞いをどのようにモデル化するか？

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

統計とは

統計学は、データからインサイトを引き出すための科学です。情報を整理、分析、解釈してパターンを明らかにし、不確実な状況で意思決定を下します。データ・サイエンスと機械学習アルゴリズムの文脈では、統計学はデータの振る舞いを把握し、モデルの選択を先導し、結果を評価するための数学的基盤を提供するものです。統計学によって、乱雑でノイズの多いデータセットを実行可能なインテリジェンスに変換することができます。

最新の機械学習は、統計学的手法の上に構築されています。教師あり学習(回帰や分類など)、教師なし学習(クラスタリングなど)、強化学習のいずれを利用する場合でも、統計的推論に基づいたツールを使用することになります。統計学は不確実性を定量化し、サンプルから一般化を行い、より広い集団についての結論を導き出すことを可能にします。これらはすべて、信頼できる人工知能(AI) システムの構築に不可欠です。

記述統計：基本の理解

モデルをトレーニングする前に、記述統計に基づいてデータの主要な特性を要約するプロセスである探索的データ解析（EDA）を実行します。このプロセスでの要約は、特徴量の中核的な傾向と変動性に関する情報を提供するもので、外れ値、データ品質の問題、前処理の必要性を特定するのに役立ちます。こうした要素の理解は、効果的なモデルを構築し、適切な機械学習アルゴリズムを選択するための前提条件となります。

主な対策：

平均：

値の算術的平均。中心度の測定や平均二乗誤差（MSE）などの損失関数で一般的に使用されています。

例：顧客の購入額が増加している場合は、平均値から行動の変化を検知できます。

中央値：

データがソートされたときの中央値。平均よりも外れ値に対して堅固です。

例：収入データにおいては、中央値は富の偏在がある場合の「典型」例をより適切に反映します。

モード：

最も頻繁に発生する値。カテゴリーとしての特徴量や多数決投票（一部のアンサンブル方式など）に有用です。

例: サイト訪問者が最も一般的に使用しているブラウザーの特定。

標準偏差（SD）：

値が平均からどの程度広がっているかを測定します。SDが低いほどデータ・ポイントが平均の近くに集まっていることを意味し、SDが高いほど変動性が大きいことを示します。

サンプル：モデルの検証では、分散が大きい特徴量では、k近傍法などの距離ベースのアルゴリズムで他の特徴量が過度に強力に存在するのを避けるために、正規化が必要な場合があります。

四分位値間範囲（IQR）：

75から25パーセンタイル（Q3～Q1）までの範囲。データの中央50%を取得するもので、外れ値の検出に役立ちます。

サンプル：顧客セグメンテーション・タスクでは、支出のIQRが高いと、サブグループ全体で一貫性のない行動が存在することを示している可能性があります。

歪み：

分布の非対称性を示します。正の偏りがあると右尾が長くなり、負の偏りがあると左尾が長くなります。特徴量に偏りがある場合、線形モデルの仮定に反するものや、平均ベースのメトリクスを過大にする場合があります。

サンプル：右に偏った分布（収入など）では、線形回帰を適用する前に対数変換が必要になる場合があります。

尖度：

分布の「テール」、つまり極値の可能性を記述します。尖度が高いと外れ値の頻度が高いことを意味し、尖度が低いと分布が平らであることを意味します。

サンプル：不正アクセス検知では、取引額の尖度が高いと、異常な支出パターンを示している可能性があります。

これらの対策は、正規化、標準化、代入などの前処理の決定も導き、新しい特徴量の設計方法に影響を与えます。

機械学習における記述統計

EDAにおいて記述統計は以下のように役立ちます。

データ分布を評価する：変数はガウス的ですか？歪みがありますか？マルチモーダルですか？
外れ値とエラーの特定：平均と中央値の不一致は、異常値を示している可能性があります。
データ品質の問題の発見：例えば、負の年齢や不可能なカテゴリーの検出など。
モデル選択支援：連続ターゲット変数は回帰、カテゴリーのひとつ、分類を示唆するものです。特徴量間の関係（相関など）も、線形、ノンパラメトリック、カーネルベースのいずれの手法を使用するかに影響を与える可能性があります。

統計によってデータを理解することは、大規模なデータセットを処理するモデルの準備、モデルのメトリクス評価、過剰適合などのリスク軽減にも役立ちます。たとえば、記述的な要約からクラスの不均衡や正規化を必要とする特徴量のスケールが明らかになる場合があります。これらはいずれもモデルの性能と公平性に影響を与えます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

確率：不確実性という言葉

機械学習を使用したモデリングは、不確実性のために存在します。入力を出力に完全にマッピングできれば、モデルは必要ありません。しかし、現実のデータは乱雑で、不完全で、ノイズが多いため、確実性ではなく尤度をモデル化します。確率について学ぶことで、機械学習と人工知能（AI）すべての基礎が築かれます。確率の理論は、美しくエレガントな方法でモデル化するために使用したデータを理解することを可能にします。これは、MLモデル予測の不確実性において重要な役割を果たします。統計モデルの尤度、確率、確実性を定量化するのに役立つため、作成した結果モデルを自信を持って測定できるようになります。確率の世界を掘り下げ、基礎を学ぶことで、すべての統計学習モデルの基礎とその予測がどのようになるかを確実に理解することができます。推論を行い、確率的な結果を生み出す方法を学びます。

一般的な分布を学習し、自信を持ってデータをモデル化するために、基本を理解し、いくつかの用語を解説します。

確率変数：ランダムな現象の結果を数値で表したもの。これは、可能な値がランダムなプロセスの数値結果である変数です。

離散確率変数：有限または可算的に無限の固定値を取り得る確率変数。例えば、コイン投げの結果（表：1、裏：0）や1時間に受信したスパムEメールの数などです。

連続確率変数：与えられた範囲内で任意の値を取り得る確率変数。例えば、人の身長、部屋の温度、降雨量などです。

事象：ランダムなプロセスによる1つ以上の結果の集合。例えば、サイコロを転がしてときに出る偶数（結果：2、4、6）や顧客離れ。

結果：ランダムな実験の可能性のある単一の結果。例えば、コインを投げると「表」または「裏」のいずれかが生成されます。

確率 $P (A)$ ：イベントが発生する可能性を示す数値 $A$ 0（不可能）から1（確実）の範囲で発生する

条件付き確率 $P (A | B)$ ：イベントの発生確率。 $A$ をイベントとします。 $A$ すでに発生している特定の特徴量を用いて結果を予測することが多いため、MLではこのステップが非常に重要です。

確率とは、ある事象が起こる可能性を0（ありえない）から1（確実）までの間で測定します。

機械学習では、多くの場合条件付き確率の形式をとります。

例：ロジスティック回帰モデルでは、次のことができます。

> 「特定年齢=45歳、収入=6万米ドル、および前歴、

> 解約の確率は0.82です」

このサンプルは、顧客が解約することを意味するのではなく、トレーニング・データの統計パターンに基づく信念です。

生成AIが活躍する現代では、回帰などの確率モデルが、成果とアウトプットの決定に大きな役割を果たします。この役割は、多くの場合、ニューラル・ネットワークの層で活性化関数の形をとります。

分布：データの振る舞いのモデル化

確率分布とは、ある確率変数が特定の範囲内で取り得る値や可能性を記述する数学的関数である。MLでは、データが単一で隔離された点として存在することはほとんどないため、分布の理解が重要です。これには、構造と「形状」があります。指定する必要がある用語には次のようなものがあります。

離散分布：明確で数えられる値（コイン投げ、単語数など）を取る変数に適用されます。
連続分布：ある範囲（高さ、重量、時間など）内の任意の値を取る変数に適用されます。

コア概念

確率関数（PMF）： PMFは、離散ランダム変数（0や1、コイントス、来店者数など、数えることができる明確な値を持つ変数）に適用されます。PMF は、考えられる各結果の正確な確率を示します。たとえばフェアな6面サイコロを振る場合、PMFはそれぞれの結果に1/6の確率を割り当てます。 $1, 2, 3, 4, 5, 6$ 。PDF（確率密度を範囲全体に分散する）とは異なり、PMFは正確な値に確率を集中させます。
確率密度関数（PDF）：パーセンタイル、分位数、確率しきい値（しきい値モデル、公平性監査、解釈可能性でよく使用される概念）について推論するのに役立ちます。
累積分布関数（CDF）：CDFでは、値が特定のしきい値以下であるかどうかの累積確率を与えます。X軸に沿って移動するにつれて0から1に増え、「50米ドル未満で支出したお客様の割合」などの質問に答える場合に特に役立ちます。
累積分布関数（CMF）：CMFは、CDFに対応する離散関数です。これは、離散変数が特定の時点以下またはそれに等しい値を持つ累積確率を示します。

データの分布について正しい仮定を行うことが不可欠です。多くの機械学習アルゴリズムは、モデルの選択と解釈の両方において、これらの仮定に依存します。不適切な仮定は、バイアスのかかった推定値、損失関数の不整合につながり、最終的には現実世界のアプリケーションにおける不十分な一般化や無効な結論につながる可能性があります。

確率分布は以下を基盤とします。

誤差モデリング：回帰（多くはガウス回帰）における残差に関する仮定。
損失関数：MSEはガウスの仮定、クロスエントロピー、ベルヌーイまたはロジスティックに対応します。
モデル設計：分類対象は多くの場合、ベルヌーイを通じてモデル化されています。深層生成モデルの潜在変数は、ガウス事前分布を使用します。
生成AI：学習済みの高次元分布からのサンプリングは、生成的敵対ネットワーク (GAN)やVAEなどのモデルの基盤となります。

離散分布の例：ベルヌーイ試行

ベルヌーイ分布は、離散ランダム・イベントの1回の試行における成功または失敗の確率をモデル化します。そのため、結果は1（成功）または0（失敗）の2つのみとなります。これは統計で使用される最も単純なタイプの分布ですが、機械学習における多くの分類問題の基礎を形成します。たとえば、コインを10回投げて、7回の表（成功）と3回の裏（失敗）が得られると、確率拡大関数（PMF）は次のようにグラフ化できます。

コイントスは、古典的なベルヌーイ分布の試行です。確率質量関数をコイン投げの例に適用してみましょう。

- $X$ 反転1回の結果を表す確率変数である

- 表を成功とすると、 $X = 1$ ：表 $X = 0$ ：裏

- コインが公正である場合、表の確率は $p = 0.5$

ベルヌーイ分布の確率質量関数(PMF)は次のとおりです。

$P (X = x) = p^{x} (1 - p)^{1 - x}, f o r x \in {0, 1}$

説明：

p は成功の確率（X=1）
1 - pは失敗の確率（X=0）
xは観測された結果（1または0)です。

機械学習への応用：離散分布

ベルヌーイ PMFは多くの分類モデルの確率的バックボーンを形成するため、必ず理解しておく必要があります。具体的には、ロジスティック回帰は出力クラスのラベルだけではなく、特定の入力がクラス 1 に属する確率を推定します。この予測確率は、ベルヌーイ分布のパラメーター𝑝として解釈されます。

ロジスティック回帰で使用されるロジスティック（シグモイド）関数では、予測値が[0,1]の範囲内にあることを確実にし、予測値を有効なベルヌーイ確率にします。モデルは、各目標値が特徴量𝑋から予測される確率𝑝をもつベルヌーイ分布から抽出されるという仮説に基づいて真となる二値結果を観察する尤度を最大化するようにトレーニングされます。この場合、学習損失を最小化したいので、データが与えられたときに結果の尤度を最大化する最尤推定（MLE）法を採用します。通常、ベルヌーイなどの離散分布では、確率を尤度に変換し、より簡単に操作できるようにします。オッズと同様の尤度は不均衡であるため、通常はトランスフォーメーション（対数尤度として知られる対数尤度、損失関数は対数損失として知られる）を適用します。このセクションが少し複雑に感じられる場合は、MLEを使用した対数尤度関数の段階的な導関数については、前述のロジスティック回帰の解説を参照してください。この接続により、アウトプットを確率的推定値として解釈するための統計的根拠が提供されます。その他のアプリケーションには次のものがあります。

二値分類器（決定木、ランダムフォレスト、二値結果のサポート・ベクター・マシン）は、特にトレーニング後に確率の調整が適用された場合、分類を暗黙的にベルヌーイの結果を予測するものとして扱います。
評価のメトリクス：精度、想起、F1スコアは、基本的に各予測がバイナリ・イベント（ベルヌーイ試行）であるという仮定から導き出されています。

連続分布の例：ガウス（正規）分布

正規分布は、値が中心平均の周りにクラスターする傾向があり、両方向に対称変動する連続ランダム変数を表します。多くの自然現象（標高、テストスコア、測定エラー）がこのパターンに従っているため、特にサンプル間で集計する場合に、これが統計学の分野で普及しています。

1,000人の大人の身長を記録したとしましょう。このデータをプロットすると、ベル型の曲線が形成されます。なります。ほとんどの人は平均に近く、極端な場合ほど数が少なくなります。この形状は、正規分布の確率密度関数（PDF）で把握できます。

$f (x ∣ μ, σ^{2}) = \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}})$

説明：

𝑥は連続変数（例：高さ）
𝜇は平均（分布の中心）
$σ^{2}$ 分散（コントロールの広がり）
分母 $\sqrt{2 π σ^{2}}$ では、曲線の下の面積の合計が1になるようにします
指数関数的な項は、平均から大きく離れた値にペナルティをもたらし、確率を低くします。

機械学習への応用：継続的分布

線形回帰：残余（誤差）は正規分布であると仮定します。これは、損失関数としての平均二乗誤差（MSE）の使用を正当化します。この仮定により、モデルは確率的な解釈を行うことができ、統計的推論（信頼区間、係数の仮説検証など）が容易になります。
生成モデル：変分オートエンコーダー（VAE）、GAN、およびその他の生成モデルは、潜在変数が標準的な正規分布に従うことを前提としていることがよくあります。新しいデータは、この空間からサンプリングし、学習されたネットワークを通じて変換することで生成されます。
正則化: L2正則化（リッジ回帰とも呼ばれる）などの手法では、重みの2乗に比例する項を損失関数に追加することで、大きなモデルの重みにペナルティを課します。このペナルティ項は、モデル・パラメータに対してガウス事前分布を仮定することに対応しています。ベイズ推定の用語で言えば、重みがゼロを中心とする正規分布から抽出されていることを信じているようなものです。この原則により、正規化は確率に基づいた最適化問題に変換され、より単純なモデルが促進され、過剰適合を減らすことができます。

まとめ

すべての機械学習システムの中核には、モデルの設計から解釈まですべてをサポートする目に見えない足場である統計的なバックボーンがあります。私たちは、統計とは何なのかを探ることから始めました。それは単なる数学の一分野ではなく、不確実性を意味し、データから意味を抽出するための言語もあります。記述統計では、世界の複雑さを調査して要約するための最初のレンズを提供し、モデリングの開始前に明確性を提供します。

次に、不確実性の下での推論のための正式なツールセットである確率について分析しました。機械学習では、確率は結果の可能性を定量化するのに役立ち、モデルは単なる厳しい予測ではなく自信を表現することができます。顧客が解約する可能性や分類におけるラベルが付けられる可能性であっても、確率理論は未加工データを解釈可能な洞察に変えます。

ここまで、さまざまなシナリオ間でのデータの動作を定義する分布について検討しました。離散ベルヌーイ分布のモデリング・バイナリー結果から、回帰モデルや生成モデルの仮定を形成する連続ガウス分布に至るまで、これらの分布の理解は極めて重要です。これらは、私たちが観察するデータと構築するアルゴリズムの両方を支え、モデルの選択を導き、損失関数を形成し、有意義な推論を可能にします。

ロジスティック回帰やナイーブ・ベイズからディープラーニングやカーネル法に至るまで、現代の機械学習アルゴリズムでは、これらの統計原理はオプションのアドオンではなく、機械学習の仕組みそのものなのです。不確実性について推論し、性能を最適化し、限定的な観察から現実世界の意思決定まで一般化するのに役立ちます。これらの基礎を習得することで、機械学習の使用方法を学ぶだけでなく、機械学習を理解し、構築し、そこから推論を導き出すこともできます。

生成AIや大規模なディープラーニング・モデルの時代においても、統計の関連性はかつてないほど重要になっています。すべてのトランスフォーマー層と拡散ステップの背後には、確率、推定、分布の仮定に基づいて構築された基盤があります。バイアスと分散のトレードオフや不確実性などの概念を理解することは、単なる学問的なものではなく、ブラックボックスモデルの解釈、障害モードの診断、責任ある説明可能なAIの構築に不可欠です。基盤モデルのファイン・チューニング、不確実性定量化へのベイズ技術の適用、生成アウトプットの評価など、統計的推論は、複雑な状況を明確に対処するためのツールを提供します。生成AIシステムが強力になるにつれて、統計的基礎に基づいた実践を行うことで、モデルが最先端であるだけでなく、原則と信頼性も確保されます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。