機械学習における分類とは

執筆者

Staff writer

機械学習における分類とは

機械学習における分類は、機械学習モデルが分類アルゴリズムを使用してインプット・データの正しいラベルを予測するという予測モデリングのプロセスです。

AIモデルは、トレーニング・データセット内のデータの分析と分類を学習するにつれて、さまざまなデータの種類を識別し、傾向を発見し、より正確な予測を行う能力を向上させていきます。

モデルのトレーニング・プロセスの最後に、テストデータを使用してモデルの性能を評価します。モデルが一貫して優れたパフォーマンスを発揮するようになると、これまでに見たことのない現実世界のデータが導入されます。トレーニングされたニューラル・ネットワークは、トレーニング中に学習した内容を適用して、新しいデータで正確な予測を行います。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

分類モデルとは

分類モデルは、データ・ポイントをクラスと呼ばれる定義済みのグループに分割する機械学習モデルの一種です。分類器は、インプットデータからクラス特性を学習し、学習した特性に従って、新しい目に見えないデータに可能なクラスを割り当てることを学習します。¹

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

分類アルゴリズムとは

分類アルゴリズムは、インプットデータをさまざまなクラスまたはカテゴリに分類する、分類に重点を置いた機械学習アルゴリズムです。人工知能 (AI) AIモデルは、分類アルゴリズムを使用して、データの並べ替え基準を設定する指定された分類子に対して入力データセットを処理します。分類アルゴリズムは、データサイエンスにおいてパターンを予測し、結果を予測するために広く使用されています。

分類モデルの仕組み

まったく同じ機械学習分類アルゴリズムは存在しませんが、いずれのアルゴリズムも一般的な2段階のデータ分類プロセスに従っています。

学習
分類

ステップ1：学習

分類は伝統的に教師あり機械学習の一種であり、ラベル付けされたデータを使用してモデルをトレーニングします。教師あり学習では、トレーニング・データの各データ・ポイントに、インプット変数（独立変数または特徴量とも呼ばれる）とアウトプット変数またはラベルが含まれます。

分類トレーニングでは、モデルの仕事は特徴量とクラスラベル間の関係を理解し、それらの基準を将来のデータセットに適用することです。このモデルは、各データ・ポイントの特徴量とクラス・ラベルを使用して、どの特徴量が各クラスを定義するかをデコードします。数学的に言えば、モデルは各データ・ポイントをタプルxと見なします。タプルとは、x=(x1,x2,x3...xn)として表される順序付き数値列のことです。

タプルの各値は、データ・ポイントの特定の特徴です。この方程式を使用してトレーニング・データをマッピングすることにより、モデルは各クラス・ラベルにどの主要な機能が関連付けられているかを学習します。

トレーニングの目的は、予測モデリング時の誤差を最小限に抑えることです。勾配降下アルゴリズムは、予測成果と実際の成果のギャップを最小限に抑えることでトレーニングします。モデルは、後でより多くのトレーニングで微調整され、より具体的なタスクを実行できます。

分類問題での教師なし学習のアプローチは、最近の研究の主要な焦点となっています。教師なし学習法により、モデルはラベルなしデータのパターンを自ら発見することができます。教師なし学習と教師あり学習はラベルの有無で区別されます。

一方、半教師あり学習では、ラベル付きデータとラベルなしデータを組み合わせ、分類と回帰の目的でモデルをトレーニングします。ラベル付きデータの大規模なデータセットを取得することが現実的ではない状況では、半教師あり学習が実行可能な代替手段となります。

ステップ 2：分類

分類タスクの第二段階は、分類そのものです。この段階では、ユーザーは未知のデータからなるテスト・セットにモデルをデプロイします。モデルがトレーニングデータに大きく依存しすぎて、現実世界で正確な予測ができなくなる過剰適合を避けるために、これまで使用されていなかったデータを使用してモデルの性能を評価します。

このモデルは、学習した予測関数y=f(x)を使用して、各サンプルの特徴に従って、目に見えないデータを異なるクラス間で分類します。次に、ユーザーは、正しく予測されたテスト・データ・サンプルの数に従ってモデルの精度を評価します。²

分類のタイプ

分類ベースの予測モデリング・タスクは、カテゴリーの数と、そのカテゴリーがどの程度排他的であるかに基づいて、相互に区別されます。

二項分類は、データを2つの排他的なカテゴリーに分類します。

マルチクラス分類はデータを2つを超える排他的なcategoriesに分類します。

マルチラベル分類はデータを非排他的なカテゴリに分類します。

不均衡 分類では、categories間でデータ・ポイントが不均衡に分散します。

二項分類

二項分類問題では、モデルはデータが2つのクラスのいずれかに適合するかを予測します。トレーニング中に適用される学習手法では、モデルがトレーニング・データの主要な機能を評価し、各データ・ポイントに適用される2つのラベル（肯定または否定、真または偽、はい・いいえ）のどれを適用するかを予測します。

たとえば、スパム・フィルターは、Eメールがスパムか、スパムでないかを分類します。検知に加えて、二項分類モデルは信頼できる行動予測、つまり潜在的な顧客が特定の製品を購入しないか、それとも購入するかなどの信頼できる行動予測を行います。これらは自然言語処理(NLP)、感情分析、画像分類、不正アクセス検知にも役立ちます。

マルチクラス分類

マルチクラス分類問題は、2つ以上のクラスラベルでデータを分類し、そのすべてが相互に排他的です。このように、マルチクラスの課題は、より多くのクラスがあることを除いて、2値分類タスクに似ています。

マルチクラス分類モデルには、現実世界における多くのユースケースがあります。マルチクラス分類ソリューションは、Eメールがスパムか非スパムか判断することに加えて、Eメールがプロモーション・メールであるか、優先度の高いメールであるかを判断することもできます。たとえば、画像分類器は、犬、猫、ラマ、カモノハシなど、無数のクラス・ラベルを使用してペットの画像を分類することができます。

マルチクラス分類学習方法の目標は、インプットをより広範囲の可能なカテゴリーに正確に割り当てるようにモデルを教育することです。マルチクラス・トレーニングにおける一般的な目的関数は、カテゴリー横断エントロピー損失です。これは、テスト・データによるモデルの予測と、各データ・ポイントの正しいラベルとのギャップを評価するものです。

マルチラベル分類

マルチラベル分類は、各データポイントに複数の非排他的なラベルを割り当てることができる状況で使用されます。独占ベースの分類タイプとは異なり、マルチラベル分類では、データ・ポイントが複数のカテゴリーの特性を示す場合があり、ビッグデータ・コレクションにおける現実世界の曖昧さをより密接に反映します。

マルチラベル分類タスクは、多くの場合、複数の二項分類またはマルチクラス分類モデルの予測を組み合わせることによって実現されます。

不均衡分類

あるカテゴリーに他のカテゴリーよりも多くのデータ・ポイントが含まれる不均衡な分類には、特殊なアプローチが必要です。特定のグループがより多くのデータ・ポイントを蓄積するにつれて、一部の分類モデルはバイアスを起こし、より有利に予測するようになります。

対策としては、不正確な予測のコストに大きな重みを持たせるように構成されたアルゴリズムや、多数のサンプルを排除するか過小評価するグループからオーバーサンプリングするサンプリング方法などがあります。

離散予測と連続予測

予測モデルは、次の2種類の予測を出力します。

離散予測は、データを明確なカテゴリーに分類します。

連続予測は、確率に基づいてクラスを割り当てます。

離散予測

離散予測は、各データ・ポイントの予測クラス・ラベルです。たとえば、予測子を使用して、健康データに基づいて医療患者を糖尿病患者または非糖尿病患者に分類できます。糖尿病と非糖尿病のクラスは、離散的なカテゴリー予測です。

継続的な予測

分類器は、クラス予測を信頼スコアと呼ばれる連続確率として割り当てます。これらの確率は0から1の間の値で割合を表します。糖尿病予測モデルは、0.82の確率で患者を糖尿病と分類する場合があります。このモデルは、患者が糖尿病になる可能性は82%だと考えています。

研究者は通常、連続予測をしきい値として使用しながら、離散予測を使用してモデルを評価します。分類器は、特定のしきい値を下回る予測を無視します。糖尿病予測因子の閾値が0.4(40%)で、患者を0.35(35%)の確率で糖尿病として分類した場合、モデルはそのラベルを無視し、患者を 糖尿病 クラスに割り当てることはしません³。

分類と回帰

分類と回帰の違いは、分類はデータ・ポイントのカテゴリを予測するのに対し、回帰は関連する実際の数値を予測することです。分類と回帰はどちらも予測モデリングの一種ですが、ユースケースが異なります。

分類モデルはデータ・ポイントをカテゴリーに分類します。分類は、データ・ポイントを分類する関数を検出するためにディープラーニングモデルをトレーニングするプロセスです。

回帰モデルは、さまざまなデータ・ポイントを考慮して、別の変数の連続な数値を予測します。例えば、職場の回帰モデルは、年齢、エクスペリエンス、勤務地、教育プログラムに基づいて労働者の給与を予測します。

実際には、この2つは密接に関連していることがよくあります。たとえば、ロジスティック回帰アルゴリズムは、回帰を使用して分類タスクを実行します。

分類アルゴリズムの種類

分類アルゴリズムにはさまざまな種類があります。ユースケースは重複していますが、特定のアプリケーションに適しているものは他よりもいくつかあります。最も一般的な分類アルゴリズムには次のようなものがあります。

ロジスティック回帰

決定木

ランダム・フォレスト

サポート・ベクトル・マシン（SVM）

k近傍法

ナイーブベイズ

これらのアルゴリズムの多くは、scikit-learnライブラリを使用して、Pythonで簡単に実装できます。一方、アンサンブル手法とトランスフォーマー・モデルは、分類問題に適用されたい新しい開発です。

ロジスティック回帰

ロジスティック回帰アルゴリズムは、分類タスクを実行するためによく使用されます。ロジスティック回帰は、線形回帰モデルから導出される確率分類器です。線形回帰では、1つ以上の独立変数を使用して独立変数の値を予測します。この値は、任意の連続有理数にすることができます。

ロジスティック回帰は、出力値（または独立変数）が0から1までの任意の値に制限される線形回帰の変形です。これは、ロジット（対数オッズ）変換を標準の線形回帰式に適用することによって行われます。⁹

ロジスティック回帰モデルは、多変量回帰問題の二項分類に使用されます。複数の変数を考慮す留場合、データ・ポイントはある任意のカテゴリーに属するのか、それとも他のカテゴリーに属するかのを判断します。一般的な用途は、不正アクセス検知と生物医学的予測です。例えば、ロジスティック回帰は、外傷や冠動脈性心疾患による患者の死亡率の予測の一助となっています。¹⁰

決定木

分類と回帰の両方に使用される決定木は、二項分類の判断を連続的に繰り返し、データセットを徐々に小さなグループに分割します。結果として得られる構造は木に似ており、最初の判断から外側に枝分かれして後続の葉またはノードに枝分かれしていきます。

決定木はフローチャートのような性質があるため、ビジネス・ユーザーが理解できるより直感的なモデルの1つです。視覚化が簡単な決定木は、データの分類に使用される意思決定プロセスと基準を明確に表すことで、分類プロセスに透明性をもたらします。

ランダムフォレスト

ランダムフォレストは、複数の決定木のアウトプットを 1 つの成果に結合するアンサンブル手法です。結果として得られる「森林」（フォレスト）によって、過剰適合を回避しながら、単一の木よりも予測精度が向上します。決定木と同様、ランダムフォレストは分類タスクと回帰タスクの両方を処理できます。

ランダムフォレスト・アルゴリズムは、タスクごとに複数の決定木を作成し、すべての木の予測を集計して、最も一般的な成果を最終的な結果として選択します。それぞれの木はデータの主要な機能のランダムなサブセットを考慮するため、それぞれの木の間の相関は低く抑えることができます。

サポート・ベクトル・マシン(SVM)

サポート・ベクトル・マシン (SVM) アルゴリズムは、データ・ポイントを多次元空間にプロットし、次元の数はデータ内の主要な機能の数に対応します。アルゴリズムの目標は、データ・ポイントをカテゴリーに分割する最適な線（超平面または境界としても知られています）を発見することです。

最適な超平面は、最も広いマージンを持つものです。これは、超平面と各クラスの最も近いデータ・ポイントの間の距離です。これらの近くのデータ・ポイントはサポートベクトルと呼ばれます。超平面でデータを分離するモデルは線形モデルですが、SVMアルゴリズムは、より複雑なデータセットを使用した非線形分類タスクも処理できます。

ロジスティック回帰、決定木、ランダムフォレスト、SVMアルゴリズムはすべて、「熱心な学習者」（eager learner）の例です。つまり、トレーニング・データからモデルを構築し、それらのモデルを将来の予測に適用するアルゴリズムです。トレーニングには時間がかかりますが、アルゴリズムが優れたモデルを構築した後は、予測が迅速化されます。

K近傍法（KNN）

k近傍法（KNN）は、データ・ポイントを多次元空間にマッピングします。次に、類似した特徴値を持つデータ・ポイントを別々のグループまたはクラスにグループ化します。新しいデータサンプルを分類するために、分類器は新しいデータに最も近いk個の点を調べ、隣接する部分集合を構成する各クラスのメンバーを数え、その割合を新しいデータ点のクラス推定値として返します。

つまり、モデルは、そのポイントの近傍の大部分を構成するクラスに新しいデータ・ポイントを割り当てます。KNNモデルは遅延学習です。トレーニング・データからモデルをすぐに構築するのではなく、トレーニング・データを参照し、新しいデータをそれと比較するアルゴリズムです。これらのモデルが予測を行うのは、通常、熱心な学習者よりも時間がかかります。

KNNモデルは通常、データ・ポイント間の距離をユークリッド距離で比較します：¹³

近似最近傍法（ANN）はKNNの変形です。高次元のデータ空間では、与えられたデータ点の正確な近傍を見つけるのに計算コストがかかることがあります。次元削減とANNは、この問題に対する2つの解決策です。

ANNは、与えられたデータ点の正確な最近傍を見つけるのではなく、与えられた距離内の近似最近傍を見つけます。最近の研究では、多重ラベル分類の文脈でANNの有望な成果が示されています。¹⁴

単純ベイズ

単純ベイズ分類器は、ベイズの定理に基づいてクラス予測の事後確率を計算します。単純ベイズは、新しいデータごとに初期クラス予測、つまり事前確率を更新します。

糖尿病予測指標では、患者の医療データ（血糖値、年齢、血糖値など）が独立変数となります。ベイズ分類器は、現在の集団における糖尿病の蔓延状況（事前確率）と、患者の医療データ値が糖尿病患者に出現する条件付き確率を組み合わせたものです。

単純ベイズ分類器はベイズの定理式に従います：⁸

単純ベイズは、生成分類器として知られています。ベイズ分類器は、観測値の変数値を使用して、どのクラスが観測値を生成した可能性が最も高いかを計算します。

自然言語処理（NLP）の研究者は、感情分析などのテキスト分類タスクにナイーブ・ベイズを広く適用しています。各単語が変数を構成するBag-of-Wordsモデルを使用して、単純ベイズ分類器は、問題のテキストを正または負のクラスが生成したかどうかを予測します。⁹

アンサンブル方式

アンサンブル手法と機械学習手法では、複数の小規模モデルを単一の分類器に統合することで、成果を向上させます。ディープ・アンサンブル手法では、複数のディープラーニング・モデルを統合し、さらに強力なアンサンブル分類器を作成します。ディープラーニングを使用したアンサンブルは、複雑なマルチラベル分類タスクを処理できます。

勾配ブースティングは、予測精度を向上させることができるアンサンブル法です。これはブーストの一種で、複数の弱い学習者が順番に互いに学習し、反復ごとに成果を改善するアンサンブル手法です。

分類におけるTransformerモデル

Transformerモデルは通常 NLP タスクに使用されますが、分類の問題にも適用されます。GPTやClaudeなどのTransformerモデルは、自己注意メカニズムを使用して、入力データセットの最も関連性の高い部分に焦点を当てます。位置エンコーディングは、各データポイントがシーケンスのどこにあるかをモデルに通知するために使用されます。

分類学習の評価方法

研究者と開発者は、特定の分類タスクに応じて、分類モデルの特定の評価メトリクスを選択します。すべては、学習者または分類器がモデルクラスを正確に予測する精度を測定します。

最も一般的な評価メトリクスには、次のようなものがあります。

正確性

適合率

再現率

F1スコア

混同行列

ROC曲線

真陽性（TP）とは、モデルがそれぞれのクラスで正しく予測したデータサンプルのことです。偽陽性（FP）とは、誤って陽性と識別された陰性クラスのインスタンスです。偽陰性（FN）は、誤って陰性と予測された実際の陽性インスタンスです。真陰性（TN）は、モデルが正確に陰性と分類した実際の陰性クラス・インスタンスです。

精度

正確性は、データセット内のすべての予測に対する真陽性の比率です。機械学習モデルが結果（この場合はデータ・ポイントに適したクラス）を正しく予測する頻度を測定します。

正確性は、モデルの性能の概要を提供しますが、モデルが特定のクラスの予測が他のクラスよりも優れているかどうかは明らかにしません。データ・セットが極めて不均衡である場合、正確性に焦点を当てることにより、モデルは小さなデータ・セットをすべて無視し、すべての結果を多数のクラスとして予測する可能性があります。この状況でも、全体的な正確性は依然として高くなります。

スパム・フィルターは、その推測のほとんどが正確であれば、あるいは実際のスパムEメールのほとんどを見逃すとしても、その正確性が高くなります。

適合率

適合率、または正予測値（PPV）は，指定されたクラスに属する正クラス予測の割合である．適合率は、モデルがターゲット・クラスを正しく予測しているかどうかを明らかにするため、不均衡な分類タスクや誤検知のコストが高い場合に役立ちます。

スパム・フィルターの場合、適合率は検知されたスパムEメールのうちのスパム数を示します。データを誤検知として誤って分類するモデルは適合率が低く、誤検知が少ないモデルは適合率が高くなります。¹⁰

再現率

感度または真陽性率（TPR）とも呼ばれる再現率は、モデルによって検出されたクラス・インスタンスの割合を示します。再現率は、モデルがデータセット内のターゲット・クラスのメンバーを検知する頻度を示します。スパム・フィルターの場合、再現率は、モデルがスパムとして識別した実際のスパムEメールの件数を示します。¹¹

F1スコア

適合率と再現率は反比例の関係にあります。分類器が返す真陽性が多いほど、再現率は高まり、非インスタンスの誤分類が発生して、適合率が下がります。F1スコアは、精度と再現率を組み合わせてモデルのクラスごとの合計精度を表すことで、このトレードオフを解決します。¹²

データの可視化とモデル評価

データの可視化ツールは、データ分析の結果を説明するのに役立ちます。データサイエンティストと機械学習の研究者は、分類器の性能を視覚化するために次の2つの主要なツールを使用します。

混同行列は、予測値と実際の値を示す表です。

ROC曲線は、真陽性と真陰性の割合を表したグラフです。

混同行列

混同行列は、クラスの予測値と実際の値の両方を表す表です。行列のボックスは、真陽性、偽陽性、偽陰性、真陰性の数を表しています。これらの値の合計は、モデルの予測の総数です。¹³

ROC曲線

受信者操作特性（ROC）曲線は、真陽性と真陰性の比率を視覚化します。グラフは、モデル分類で使用される各しきい値の真の負率に対する真の陽性率をプロットしています。曲線下面積（AUC）統計は、ROC曲線から求められます。

AUCは、ランダムに選択された陽性がランダムな陰性よりも信頼スコアが高い確率を測定します。AUC値の範囲は0から1です。前者は、モデルがすべての陰性を陽性よりも高い確率で判定することを意味し、一方1は、モデルがすべての陽性を高い確率で判定することを意味します。⁸

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

参考情報

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

教師あり学習モデル

サポート・ベクトル・マシンや確率的分類器などの教師あり学習アプローチを調査します。

生成AIを試してみる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

脚注

1. Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2. Jaiwei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012.

3. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023

5. Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs, and Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016, pp. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590

6. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

7. Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024, pp. 1−51, https://www.jmlr.org/papers/v25/23-0286.html

8. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad and James Curran, Introduction to Bayesian Statistics, 3rd edition, Wiley, 2016.

9. Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023.

10. Ethan Zhang and Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.

11. Ethan Zhang and Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.

12. Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.

7 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

8 Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

機械学習における分類とは

執筆者