教師あり学習と教師なし学習の違い

多くの神経末端を持つシナプスのように見えるフラクタル

著者

Julianna Delua

SME, IBM Analytics, Data Science/Machine Learning

世界は日々「スマート化」されており、消費者の期待に応えるために、機械学習アルゴリズムを導入する企業が増えています。エンドユーザーデバイス(顔認識によるスマートフォンのロック解除)やクレジットカード詐欺の検知(異常購入に対するアラートのトリガーなど)に使用されていることがわかります。

人工知能(AI) と機械学習には、教師あり学習と教師なし学習という 2 つの基本的なアプローチがあります。主な違いは、一方は結果を予測するためにラベル付けされたデータを使用するのに対し、もう一方はラベル付けされたデータを使用しないという点です。ただし、2 つのアプローチの間には微妙な違いがあり、一方が他方よりも優れている重要な領域があります。この投稿では違いを明確にし、状況に応じて最適なアプローチを選択できるようにします。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

教師あり学習とは

教師あり学習は、ラベル付けされたデータ セットの使用によって定義される機械学習のアプローチです。これらのデータ・セットは、データの分類や結果の正確な予測を行うため、アルゴリズムをトレーニングまたは「監督」するように設計されています。このモデルは、ラベル付けされたインプットとアウトプットを使用して精度を測定し、時間をかけて学習します。

教師あり学習は、データ・マイニングの場合、分類と回帰の2つの問題に分けることができます。

  • 分類問題では、リンゴとオレンジを分けるなど、テストデータを特定のカテゴリーに正確に割り当てるためのアルゴリズムを使用します。あるいは、現実世界では、教師あり学習アルゴリズムを使用して、受信トレイとは別のフォルダーにスパムを分類することもできます。線形分類器、サポート ベクター マシン、決定木、ランダム フォレストはすべて、一般的な分類アルゴリズムの種類です。

  • 回帰は、アルゴリズムを使用して従属変数と独立変数の関係を理解する、別のタイプの教師あり学習方法です。回帰モデルは、特定のビジネスの売上収益予測など、さまざまなデータ・ポイントに基づいて数値を予測するのに役立ちます。一般的な回帰アルゴリズムには、線形回帰、ロジスティック回帰、多項式回帰などがあります。
AI Academy

カスタマー・サービスでAIを活用する

生成AIが、セルフサービス、ヒューマン・エージェント、コンタクト・センターの運用という3つの主要領域で、よりシームレスなエクスペリエンスで顧客を満足させ、組織の生産性を向上させる方法をご覧ください。

教師なし学習とは

教師なし学習では、機械学習アルゴリズムを使用して、ラベルのないデータセットを分析およびクラスターします。これらのアルゴリズムは、人間の介入を必要とせずにデータに隠されたパターンを発見します(したがって、「教師なし」)。

教師なし学習モデルは、クラスタリング、アソシエーション、次元削減という3つの主要タスクに利用されます。

  • クラスタリングは、類似点や相違点に基づいてラベルのないデータをグループ化するデータ・マイニング手法です。たとえば、K 平均クラスタリング アルゴリズムは、類似のデータ ポイントをグループに割り当てます。K 値は、グループ化のサイズと粒度を表します。この技術は、市場のセグメンテーションや画像圧縮などに役立ちます。

  • アソシエーションは、さまざまなルールを使用して特定のデータ セット内の変数間の関係を見つける、別のタイプの教師なし学習方法です。これらの方法は、「この商品を購入したお客様は、こちらも購入しました」などの推奨商品と同様に、マーケットバスケット分析や推奨エンジンで頻繁に使用されます。

  • 次元削減は、特定のデータ・セット内の特徴(または次元)の数が多すぎる場合に使用される学習手法です。データの整合性を維持しながら、データインプットの数を管理しやすいサイズにまで削減します。多くの場合、この技術は、オートエンコーダーが視覚データからノイズを除去して画質を向上させる際など、データの前処理段階で使用されます。

主な違い: ラベル付きデータ

2つのアプローチの主な違いは、ラベル付きデータ・セットの使用です。簡単に言うと、教師あり学習では、ラベル付きのインプットとアウトプットを使用しますが、教師なし学習アルゴリズムでは使用しません。

教師あり学習では、アルゴリズムは、データに対して予測を繰り返し行い、正しい答えに向けて調整することにより、トレーニング用データ・セットから「学習」します。教師あり学習アルゴリズムは教師なし学習モデルよりも正確である傾向がありますが、データに適切なラベルを付けるには事前に人間による介入が必要です。たとえば、教師あり学習モデルは、時間帯や気象条件などに基づいて、通勤にかかる時間を予測できます。しかし、その前に、雨天候によって運転時間が延長されることを理解するようトレーニングする必要があります。

対照的に、教師なし学習モデルは独自に動作し、ラベルのないデータの固有の構造を発見します。出力変数を検証するには、ある程度の人間の介入が必要であることに注意してください。たとえば、教師なし学習モデルは、オンライン ショッパーが複数の商品をまとめて購入することが多いことを識別できます。ただし、データ アナリストは、ベビー服をおむつ、アップルソース、ストロー付きカップの注文と一緒にグループ化することが推奨エンジンにとって合理的であることを検証する必要があります。

その他の主な違い

  • ゴール: 教師あり学習では、新しいデータの結果を予測することが目標です。どのような成果が期待できるかを事前に知ることができます。教師なし学習アルゴリズムの目的は、大量の新しいデータから洞察を得ることです。機械学習自体が、データセットと異なる点や興味深い点を判断します。

  • アプリケーション: 教師あり学習モデルは、スパム検知、センチメント分析、天気予報、料金体系予測などに最適です。対照的に、教師なし学習は、異常検知、推奨エンジン、顧客ペルソナ、医療画像などに最適です。

  • 複雑さ: 教師あり学習は機械学習のシンプルな手法で、通常はRやPythonなどのプログラムを使って計算されます。教師なし学習では、大量の未分類データを扱うための強力なツールが必要です。教師なし学習モデルは、意図した結果を得るために大規模な学習セットを必要とするため、計算が複雑です。

  • 欠点: 教師あり学習モデルはトレーニングに時間がかかる可能性があり、入力変数と出力変数のラベルには専門知識が必要です。一方、出力変数を検証するために人間の介入がない限り、教師なし学習方法では、成果が大幅に不正確になる可能性があります。

教師あり学習と教師なし学習: どちらが最適か?

状況に適したアプローチを選択するかどうかは、データサイエンティストがデータの構造と量、ユースケースをどのように評価するかによって異なります。決定を下すには、必ず次の操作を行ってください。

  • インプットデータを評価する:  ラベル付きデータなのか、それともラベルなしデータなのか。追加のラベル付けをサポートできる専門家はいますか?

  • 目標を明確にする:解決すべき問題が繰り返し、明確に定義されているか。それとも、アルゴリズムは新しい問題を予測する必要があるのだろうか?

  • アルゴリズムのオプションを確認する: 必要な次元 (主要な機能、属性、または特性の数) が同じアルゴリズムはありますか? それはデータの量と構造をサポートできますか?

ビッグデータの分類は教師あり学習において大きな課題となる可能性がありますが、成果は非常に正確で信頼できるものです。対照的に、教師なし学習では大量のデータをリアルタイムで処理できます。しかし、データがどのようにクラスター化されているかについて透明性に欠け、不正確な成果を招くリスクが高くなります。ここで半教師あり学習が登場します。

半教師あり学習: 両方の長所を活かす

教師あり学習と教師なし学習のどちらを使用するかを決められない場合どうすべきか?半教師あり学習は、ラベル付きデータとラベルなしデータの両方を含むトレーニング データ セットを使用する、最適な方法です。これは、データから主要な機能を抽出することが困難な場合、つまり大量のデータがある場合に特に役立ちます。

半教師あり学習は、少量のトレーニング データで精度を大幅に向上させることができる医療画像に最適です。たとえば、放射線科医は、CTスキャンの小さなサブセットに腫瘍や病気のラベルを付けることで、どの患者がより多くの医療を必要とする可能性があるかを機械がより正確に予測できるようになります。

教師あり学習と教師なし学習の詳細はこちら

機械学習モデルは、データから洞察を得ることで私たちの世界を改善する強力な方法です。教師あり学習および教師なし学習で使用される特定のアルゴリズムについて詳細はこちら、Learn Hubの記事をご覧ください。ディープラーニングとニューラル・ネットワークについて詳しく解説した、さらに一歩進んだブログ記事もチェックすることをお勧めします。

 

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約