知っておくべき5種類の機械学習

著者

Staff Writer, Automation & ITOps

IBM Think

機械学習の5つの種類とは

教師あり機械学習は、ラベル付きデータセット（つまり、ターゲットまたは結果の変数は既知）でモデルをトレーニングする機械学習です。例えば、データサイエンティストが竜巻の予測モデルを構築する場合、入力変数には日付、場所、温度、風の流れ方のパターンなどが含まれ、アウトプットはその日に記録された実際の竜巻の動きとなります。

教師あり学習が使われることの多い場面には、リスク・アセスメント、画像認識、予測分析、不正アクセス検知があり、数種類のアルゴリズムで構成されます。

回帰アルゴリズムは、実数値または連続値（温度、給与など）間の線形関係を識別することで出力値を予測します。回帰アルゴリズムには、線形回帰、ランダム・フォレスト、勾配ブースティング、その他サブタイプが含まれます。
分類アルゴリズムは入力データにラベルを付けることで、カテゴリカルな出力変数（たとえば、"ジャンク "か "ジャンクでない "か）を予測します。分類アルゴリズムには、ロジスティック回帰、k最近傍、サポートベクターマシン（SVM）などがあります。
ナイーブ・ベイズ分類器は、大規模なデータセットを分類できるようにするものです。また、特定のクラスまたはカテゴリーの入力分布をモデル化する生成学習アルゴリズムの系統に属しています。ナイーブ・ベイズ・アルゴリズムである決定木は実質的に、回帰アルゴリズムと分類アルゴリズムの両方に対応できます。
ニューラル・ネットワークは、自然言語翻訳、画像認識、音声認識、画像作成などのプロセスを容易にする膨大な数のリンク済み処理ノードで、人間の脳の働きをシミュレーションします。
ランダム・フォレスト・アルゴリズムは、複数の決定木から取得した結果を組み合わせて値またはカテゴリを予測します。

2. 教師なし機械学習

教師なし学習アルゴリズム（Apriori、ガウス混合モデル（GMM）、主成分分析（PCA）など）は、ラベルなしデータ・セットから推論を導き出し、探索的データ解析を簡易化し、パターン認識と予測モデリングを実現します。

最も一般的な教師なし学習法はクラスター分析です。クラスタリング・アルゴリズムを利用し、（顧客セグメンテーションや異常検知などで見られるような）値の類似性に応じてデータ・ポイントを分類します。データサイエンティストは、関連付けアルゴリズムを使用して大規模なデータベース内にあるデータ・オブジェクト間の関連を特定できるため、データの可視化と次元削減を容易に行うことができます。

K-meansクラスタリングでは、データ・ポイントをK個のグループに割り振り、決められた重心に最も近いデータ・ポイントを同じカテゴリーにクラスター化します。Kはクラスターを表し、そのサイズと精度に基づきます。K-meansクラスタリングは、市場セグメンテーション、ドキュメント・クラスタリング、画像セグメンテーション、画像圧縮によく利用されます。
階層的クラスタリングには複数のクラスタリング手法があります。データ・ポイントがグループに属せずバラバラな状態から、類似性に基づいて1つのクラスターになるまで繰り返しまとめていく凝集クラスタリングや、1つのデータ・クラスターをデータ・ポイント間の違いに基づいて分けていく分割クラスタリングが挙げられます。
確率的クラスタリングは、データ・ポイントが特定の分布に属する可能性に基づいてグループ化することで、密度の推定や「ソフト」クラスタリングの問題解決に役立ちます。

教師なしMLモデルは「この商品を購入したお客様は…も購入しています」というタイプのレコメンデーション・システムを支えている場合が多く見られます。

3. 自己教師あり機械学習

自己教師あり学習（SSL）を利用すると、大量のアノテーション付きデータ・セットやラベル付きデータ・セットを必要とせず、モデルがラベルなしデータで自己トレーニングできます。SSLアルゴリズムは予測学習アルゴリズムまたはプレテキスト学習アルゴリズムとも呼ばれ、入力の一部を別の部分から学んでラベルを自動生成し、教師なし問題を教師あり問題に変換します。これらのアルゴリズムは、モデルのトレーニングに必要なラベル付きトレーニング・データの量が非常に多くなり得る（法外な量になる場合も）コンピューター・ビジョンやNLPといったジョブで、特に役立ちます。

4. 強化学習

強化学習は人間からのフィードバックによる強化学習（RLHF）とも言います。報酬と罰則システムでアルゴリズムをトレーニングする動的なプログラミングの一種です。強化学習を行うには、エージェントが特定の環境でアクションを実行して所定の目標を達成します。エージェントには、決められた測定基準（通常はポイント）に基づいてそのアクションに対する報酬またはペナルティーが与えられ、正しい行動を継続し、不適切なものは捨てるよう促されます。これを繰り返すことで、エージェントは最良の戦略を学習します。

強化学習アルゴリズムはビデオゲーム開発で一般的となっているほか、ロボットに人間のタスクを再現する方法を教えるためによく使われます。

5. 半教師あり学習

機械学習（ML）テクノロジーは、医療から人事、金融まで、ほぼすべての業界で意思決定を推進できると同時に、コンピューター・ビジョン、大規模言語モデル（LLM）、音声認識、自動運転車など、数多くのユースケースに活用できます。

しかしMLの影響力の増大には、複雑な問題がないわけではありません。MLテクノロジーの基盤となる検証データ・セットとトレーニングデータ・セットは、多くの場合、人の手で集められます。そして人は偏見に影響されやすく、間違いを犯しやすいものです。MLモデル自体に偏りや欠陥がない場合でも、それを間違ったコンテキストにデプロイすると、意図しない有害な結果をもたらすエラーが発生するおそれがあります。

だからこそ、企業によるAIおよびML利用の多様化は、競争上の優位性を保つ上で非常に貴重であることが証明されています。MLアルゴリズムの各タイプとサブタイプには、チームがさまざまなタスクに活用できる独自のメリットと機能があります。ここでは、主な5つのタイプとその用途について説明します。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

機械学習とは

機械学習（ML：Machine Learning）とは、コンピューターサイエンス、データサイエンス、人工知能（AI）の一部です。プログラミングを追加しなくても、システムがデータから学習し、改善されるようにします。

MLモデルはパフォーマンスを最適化するにあたり、明示的な指示を出すのではなく、データ・パターンと推論に基づいてタスクを展開するアルゴリズムと統計モデルに依存します。言い方を変えると、MLはインプット・データを活用してアウトプットを予測し、新しいデータを得るたびにアウトプットを更新します。

たとえば小売ウェブサイトでは、機械学習アルゴリズムが購入履歴に基づいて商品をおすすめするので、消費者の購入決定に影響を与えます。IBM、Amazon社、Google社、Meta社、Netflix社など多くの小売業者が有するeコマース・プラットフォームは、1人1人に合わせたおすすめを提供するために人工ニューラル・ネットワーク（ANN）を利用しています。小売業者は、チャットボットやバーチャル・アシスタントから取得したデータをMLや自然言語処理（NLP）テクノロジーと併用で活用し、ユーザーのショッピング・エクスペリエンスを自動化することがよくあります。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

機械学習の種類

機械学習アルゴリズムは、教師あり学習、教師なし学習、半教師あり学習、自己教師あり学習、強化学習という5つの大きなカテゴリーに分類されます。

1. 教師あり機械学習

教師あり機械学習
教師なし機械学習
自己教師あり機械学習
強化学習
半教師あり学習

1.教師あり機械学習

教師あり機械学習は、ラベル付きデータ・セット（つまり、ターゲットまたは結果の変数は既知）でモデルをトレーニングする機械学習です。たとえば、データサイエンティストが竜巻の予測モデルを構築する場合、入力変数には日付、場所、温度、風の流れ方のパターンなどが含まれ、出力はその日に記録された実際の竜巻の動きとなります。

回帰アルゴリズムは、実数値または連続値（温度、給与など）間の線形関係を識別することで出力値を予測します。回帰アルゴリズムには、線形回帰、ランダム・フォレスト、勾配ブースティング、その他サブタイプが含まれます。
分類アルゴリズムは入力データにラベルを付けることで、カテゴリカルな出力変数（たとえば、"ジャンク "か "ジャンクでない "か）を予測します。分類アルゴリズムには、ロジスティック回帰、k最近傍、サポートベクターマシン（SVM）などがあります。
ナイーブ・ベイズ分類器は、大規模なデータ・セットを分類できるようにするものです。また、特定のクラスまたはカテゴリの入力分布をモデル化する生成学習アルゴリズムの系統に属しています。ナイーブ・ベイズ・アルゴリズムである決定木は実質的に、回帰アルゴリズムと分類アルゴリズムの両方に対応できます。
ニューラル・ネットワークは、自然言語翻訳、画像認識、音声認識、画像作成などのプロセスを容易にする膨大な数のリンク済み処理ノードで、人間の脳の働きをシミュレーションします。
ランダム・フォレスト・アルゴリズムは、複数の決定木から取得した結果を組み合わせて値またはカテゴリを予測します。

2.教師なし機械学習

Apriori、ガウス混合モデル（GMM）、主成分分析（PCA）などの教師なし学習アルゴリズムは、ラベルなしデータ・セットから推論を導き出し、探索的データ解析を簡易化し、パターン認識と予測モデリングを実現します。

K-meansクラスタリングでは、データ・ポイントをK個のグループに割り振り、決められた重心に最も近いデータ・ポイントを同じカテゴリーにクラスター化します。Kはクラスターを表し、そのサイズと精度に基づきます。K-meansクラスタリングは、市場セグメンテーション、ドキュメント・クラスタリング、画像セグメンテーション、画像圧縮によく利用されます。
階層的クラスタリングには複数のクラスタリング手法があります。データ・ポイントがグループに属せずバラバラな状態から、類似性に基づいて1つのクラスターになるまで繰り返しまとめていく凝集クラスタリングや、1つのデータ・クラスターをデータ・ポイント間の違いに基づいて分けていく分割クラスタリングが挙げられます。
確率的クラスタリングは、データ・ポイントが特定の分布に属する可能性に基づいてグループ化することで、密度の推定や「ソフト」クラスタリングの問題解決に役立ちます。

3. 自己教師あり機械学習

4. 強化学習

強化学習アルゴリズムはビデオゲーム開発で一般的となっているほか、ロボットに人間のタスクを再現する方法を教えるためによく使われます。

5.半教師あり学習

5種類目の機械学習法は、教師あり学習と教師なし学習の組み合わせです。

半教師あり学習アルゴリズムは、小規模なラベル付きデータ・セットと大規模なラベルなしデータ・セットでトレーニングが行われ、半数を占めるラベルなしデータの学習プロセスをラベル付きデータが導きます。半教師あり学習モデルでは、教師なし学習を利用してデータ・クラスターを識別した後、教師あり学習でクラスターにラベルを付けることができます。

敵対的生成ネットワーク（GAN）は2つのニューラル・ネットワークをトレーニングしてラベルなしデータを生成するディープラーニングツールで、半教師あり機械学習の一例です。

MLモデルはその種類にかかわらず企業データからデータの洞察を得ることができますが、人間やデータのバイアスに対して脆弱であるため、組織による責任あるAIの実践が肝要となります。

watstonx.aiでさまざまな機械学習モデルを管理

AIテクノロジーに直接触れるかどうかにかかわらず、開発者からユーザー、規制当局に至るまで、ほぼすべての人がどこかで機械学習（ML）のアプリケーションに関わっています。MLテクノロジーの導入は加速する一方です。世界の機械学習市場は2022年に190億米ドルと評価され、2030年までに1,880億米ドルに達すると予想されています（CAGRが37％以上）。

MLの導入規模とビジネスへの影響増大により、AIおよびMLテクノロジーを理解することが継続的かつ非常に重要な取り組みとなっています。これには、テクノロジーの進化に合わせた注意深い監視とタイムリーな調整が求められます。IBM® watsonx.aiとAI Studioを使用すると、開発者はMLアルゴリズムとプロセスを簡単に管理することができます。

IBM watsonx.aiは、AI製品のIBM watsonxポートフォリオの一部であり、新しい生成AI機能と次世代のエンタープライズ・スタジオを組み合わせて、AIビルダーがわずかなデータとわずかな時間でAIモデルをトレーニング、検証、調整、デプロイできるようにします。Watsonx.aiは、企業がデータのインサイトを活用して実際のAIパフォーマンスを最適化するのに役立つ高度なデータ生成および分類機能をチームに提供します。

データが急増する時代において、AIと機械学習は技術イノベーションやビジネス競争に不可欠であるのと同様に、日々の事業運営にも欠かせません。しかし、現代社会の新しい柱として、企業のITインフラストラクチャーを多様化し、企業や、AIと機械学習に頼る人々に利益をもたらすテクノロジーを生み出す機会でもあります。