分類モデルとは。

大手オフィスビルで遅くまで働くオフィスワーカー

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

分類モデルとは、予測モデリングの一種であり、特徴値に従ってあらかじめ定義されたクラスにデータを整理します。

分類モデルは、データ・ポイントをクラスと呼ばれる定義済みのグループに分割する機械学習モデルの一種です。分類器は、入力データからクラス特性を学習、それらの学習した特性に従って新しいデータに可能なクラスを割り当てることを学習する予測モデリングの一種です。1分類アルゴリズムは、パターン予測と結果予測のためにデータサイエンスで広く使用されています。実際、潜在的な健康リスクに応じた患者の分類迷惑メールのフィルタリングなど、実際のユースケースが数多くあります。

分類タスクは、二値分類または多クラス分類が可能です。二値分類問題では、モデルは2つのクラスの間を予測する。例えば、スパム・フィルターは、Eメールをスパムスパムでないかを分類します。多クラス分類問題は、2つ以上のクラスラベルの間でデータを分類します。例えば、画像分類器は、ラマカモノハシなど、無数のクラス・ラベルを使用してペットの画像を分類することができます。

一部の情報源、特にオンラインでは、分類を教師あり機械学習の一形態と呼んでいます。しかし、分類器は教師あり学習の領域だけに収まるわけではありません。分類問題への教師なし学習アプローチは、最近の研究の主要な焦点となっています。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

分類モデルの仕組み

もちろん、各機械学習の分類アルゴリズムは内部オペレーションが異なります。ただし、いずれも一般的な2段階のデータ分類プロセスに従います。

学習。教師あり学習では、人間のアノテーターがトレーニング・データセットの各データポイントにラベルを割り当てます。これらのポイントは、数値やテキスト文字列、画像の特徴など、いくつかの入力変数(または独立変数)として定義されます。数学的に言えば、モデルは各データ・ポイントをタプルxと見なします。タプルは、x = (x1,x2,x3…xn). と表される順序付けられた数値のシーケンスにすぎません。タプルの各値は、データ・ポイントの特定の特徴です。このモデルは、各データ・ポイントの特徴とクラス・ラベルを使用して、どの特徴が各クラスを定義するかをデコードします。この方程式に従ってトレーニング・データをマッピングすることにより、モデルは各クラス・ラベルに関連する一般的な特徴(または変数)を学習します。

分類。分類タスクの第二段階は、分類そのものです。この段階では、ユーザーは未知のデータからなるテスト・セットにモデルをデプロイします。未使用だったデータは、過剰適合を避けるためにモデルの分類を評価するのに最適です。このモデルは、学習した予測関数y=f(x)を使用して、各サンプルの特徴に従って、目に見えないデータを異なるクラス間で分類します。次に、ユーザーは、正しく予測されたテスト・データ・サンプルの数に従ってモデルの精度を評価します。2

予測

分類モデルは、出力として離散予測と連続予測の2種類の予測をします。

離散的。離散予測は、各データ・ポイントの予測クラス・ラベルです。例えば、予測子を使用して、健康データに基づいて医療患者を糖尿病患者または非糖尿病患者に分類できます。糖尿病非糖尿病のクラスは、離散的なカテゴリー予測です。

継続的。分類器は、クラス予測を信頼スコアと呼ばれる連続確率として割り当てます。これらの確率は0から1の間の値で割合を表します。私たちのモデルでは、糖尿病の患者は0.82の確立と分類するとします。つまり、このモデルでは、患者が糖尿病である確率が82%、非糖尿病である確率が18%であると考えているわけです。

研究者は通常、連続予測をしきい値として使用しながら、離散予測を使用してモデルを評価します。分類器は、特定のしきい値を下回る予測を無視します。例えば、糖尿病予測器のしきい値が0.4(40%)であり、糖尿病と分類される確率が0.35(35%)であれば、モデルはそのラベルを無視し、患者を糖尿病クラスに分類しません。3

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

評価メトリクス

研究者と開発者は、分類モデルにさまざまな評価メトリクスを使用しています。選択された評価メトリクスは、特定の分類タスクによって異なります。いずれも、学習者(つまり分類器)がモデルのクラスを正確に予測する精度を測定します。

分類メトリクスは、一般的な用語を使用します。真陽性(TP)とは、モデルがそれぞれのクラスで正しく予測したデータサンプルのことです。偽陽性(FP)とは、誤って陽性と識別された陰性クラスのインスタンスです。偽陰性(FN)は、誤って陰性と予測された実際の陽性インスタンスです。真陰性(TN)は、モデルが正確に陰性と分類した実際の陰性クラス・インスタンスです。

適合率(精度)。 これは陽性適中率(PPV)と呼ばれます。それは、問題のクラスに実際に属する陽性クラス予測の割合です。例えば、スパム・フィルターの精度とは、モデルがスパムとして分類したメッセージのうち、実際にはスパムであるメッセージの割合です。これは次の等式で表されます。4

精度計算式

再現率。感度または真陽性率(TPR)とも呼ばれる再現率は、モデルによって検出されたクラス・インスタンスの割合を示します。スパムフィルターに戻ると、再現率はモデルが実際にスパムとして分類した実際のスパムメッセージの数を示します。これは次の等で表されます:5

再現率計算式

F1スコア。精度と再現率には共有の関係があります。分類器がより多くの真陽性を返す(再現率が高い)と、分類器は必然的に非インスタンス(つまり、偽陽性)も誤って分類し、精度が低下します。F1スコアは、このトレードオフを解決することを目的としています。F1(またはFスコア)は、精度と再現率を効果的に組み合わせて、モデルのクラス全体の精度を表します。これは次の式で表されます:6

Fスコア計算式

データの可視化

データの可視化ツールは、データ分析の結果を説明するのに役立ちます。データサイエンティストと機械学習の研究者は、分類器の性能を視覚化するために次の2つの主要なツールを使用します。

混同行列。 混同行列は、列が与えられたクラスの予測値を表し、行が実際の値を表す、またはその逆の表です。左上のボックスは真陽性の数、その下のボックスは偽陽性の数、右上のボックスは偽陰性の数、右下のボックスは真陰性の数を表します。これらの値を合計することで、モデルの総予測数が算出されます7。二値分類器の混同行列は次のようになります。

二値混同行列のサンプル

ROC曲線。受信者操作特性(ROC)曲線は、真陽性と真陰性の比率を視覚化します。グラフは、モデル分類で使用される各しきい値の真の負率に対する真の陽性率をプロットしています。曲線下面積(AUC)統計は、ROC曲線から求められます。AUCは、ランダムに選択された陽性がランダムな陰性よりも信頼スコアが高い確率を測定します。AUC値の範囲は0から1です。前者は、モデルがすべての陰性を陽性よりも高い確率で判定することを意味し、一方1は、モデルがすべての陽性を高い確率で判定することを意味します。8

分類アルゴリズムの種類

分類アルゴリズムにはさまざまな種類があります。ユースケースは重複していますが、特定のアプリケーションに適しているものは他よりもいくつかあります。ここでは、分類によく使われる3つの機械学習アルゴリズムの概要を示します。これら3つはすべて、さまざまなscikit-learnライブラリを使用してPythonに簡単に実装できます。

ロジスティック回帰

オンライン・ソースでは、多くの場合、機械学習の分類タスクと回帰タスクが並置されています。しかし、これは単純化しすぎです。ロジスティック回帰は、線形回帰モデルから導出される確率分類器です。線形回帰は、1つ以上の独立変数を使用して、任意の連続有理数を値とする独立変数の値を予測します。ロジスティック回帰は、出力値(または独立変数)が0から1までの任意の値に制限される線形回帰の変形です。これは、ロジット(対数オッズ)変換を標準の線形回帰式に適用することによって行われます:9

ロジスティック回帰のロジット方程式

ロジスティック回帰モデルは、多変量回帰問題の二値分類に役立ちます。一般的な用途は、不正アクセス検知と生物医学的予測です。例えば、ロジスティック回帰は、外傷や冠動脈性心疾患による患者の死亡率の予測の一助となっています。10

ナイーブ・ベイズ

ナイーブ・ベイズ分類器(単純ベイズとも呼ばれる)は、ベイズの定理に基づく一般的な分類器の一種です。他の分類器との主な違いの一つは、クラス予測の事後確率を計算することです。つまり、ナイーブ・ベイズは、新しいデータの断片ごとに最初のクラス予測(事前確率と呼ばれる)を更新します。例えば、ある患者が糖尿病になる確率を判定するとします。この患者の医療データ(血圧、年齢、血糖値など)が独立変数となります。予測には、ベイズ分類器は、現在考えられている集団全体の糖尿病有病率(事前確率)と、患者の医療データ値が糖尿病患者に現れる確率(条件付き確率)を計算します。ナイーブ・ベイズ分類器はベイズの定理式に従います:11

ベイズの定理式

ナイーブ・ベイズは、生成分類器として知られています。つまり、ベイズ分類器は、特定の観測値の変数値を使用して、観測値を生成する確率が最も高いクラスを計算します。自然言語処理(NLP)の研究者は、感情分析などのテキスト分類タスクにナイーブ・ベイズを広く適用しています。各単語が変数を構成するBag-of-Wordsモデルを使用して、感情分析のためのナイーブ・ベイズ分類器が問題のテキストが陽性クラスと陰性クラスのどちらを生成したかを予測します。12

k近傍法

k近傍法(KNN)は、データ・ポイントを多次元空間にマッピングします。次に、類似した特徴値を持つデータ・ポイントを別々のグループまたはクラスにグループ化します。新しいデータ・サンプルを分類するために、分類器は新しいデータ・サンプルの入力xに最も近いの点k個を調べ、近傍サブセットを構成する各クラスのメンバーの数をカウントし、その割合を新しいデータ・ポイントのクラス推定値として返します。つまり、モデルは、そのポイントの近傍の大部分を構成するクラスに新しいデータ・ポイントを割り当てます。KNNモデルは通常、データ・ポイント間の距離をユークリッド距離で比較します:13

ユークリッド距離方程式

近似最近傍法(ANN)はKNNの変形です。高次元のデータ空間では、与えられたデータ点の正確な近傍を見つけるのに計算コストがかかることがあります。次元削減は、これを解決する一つの手段です。ANNもその一つです。ANNは、与えられたデータ点の正確な最近傍を見つけるのではなく、与えられた距離内の近似最近傍を見つけます。最近の研究では、多重ラベル分類の文脈でANNの有望な成果が示されています。14

これらの技法の多くは、外れ値によって悪影響を受ける可能性があることに注意してください。幸いなことに、多くの正則化技法は、このような負の影響因子を考慮するのに役立ちます。機械学習の分類には、他にも多くのアルゴリズムがあります。その他のアルゴリズムには、Decision Tree、ランダム・フォレスト、勾配ブースティング、サポート・ベクター・マシン(SVM)などがあります。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

1 Chris Drummond著、「Classification」、 Encyclopedia of Machine Learning and Data Mining、出版社:Springer、2017年。.

2 Jaiwei Han、Micheline Kamber、Jian Pei著、 「Data Mining: Concepts and Techniques」、第3版、出版社:Morgan Kaufman、2012年。

3 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。

4 Ethan Zhang、Yi Zhang著、「Precision」、 Encyclopedia of Database Systems、出版社:Springer、2018年。

5 Ethan Zhang、Yi Zhang著、「Recall」、 Encyclopedia of Database Systems、出版社:Springer、2018年。

6 Ben Carterette著、「Precision and Recall」、 Encyclopedia of Database Systems、出版社:Springer、2018年。

7 Kai Ming Ting著、「Confusion matrix」、 Encyclopedia of Machine Learning and Data Mining、出版社:Springer、2017年。

8 Peter Flach著、「ROC Analysis」、Encyclopedia of Machine Learning and Data Mining、出版社:Springer、2017年。

9 Max Kuhn、Kjell Johnson著 「Applied Predictive Modeling」、出版社:Springer、2016年。Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani、Jonathan Taylor著、 「An Introduction to Statistical Learning with Applications in Python」、出版社:Springer、2023年

10 Lisa X. Deng、Abigail May Khan、David Drajpuch、Stephanie Fuller、Jonathan Ludmir、Christopher E. Mascio、Sara L. Partington、Ayesha Qadeer、Lynda Tobin、Adrienne H. Kovacs、Yuli Y. Kim著、「Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease」、 「The American Journal of Cardiology」誌、Vol. 117、No. 5、2016年、853~857ページ、 https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590 

11 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。William Bolstad、James Curran著、 Introduction to Bayesian Statistics、第3版、出版社:Wiley、2016年。

12 Daniel Jurafsky、James Martin著、「Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition」第3版、2023年。

13 Max Kuhn、Kjell Johnson著、 「Applied Predictive Modeling」、出版社:Springer、2016年。Kevin Murphy著、 「Machine Learning: A Probabilistic Perspective」、出版社:MIT Press、2012年。

14 Ville Hyvönen、Elias Jääsaari、Teemu Roos著、「A Multilabel Classification Framework for Approximate Nearest Neighbor Search」 「Journal of Machine Learning Research」誌、Vol. 25、No. 46、2024年、1~51ページ、 https://www.jmlr.org/papers/v25/23-0286.html 。