世界は日々「スマート化」されており、消費者の期待に応えるために、機械学習アルゴリズムを導入する企業が増えています。エンドユーザーデバイス(顔認識によるスマートフォンのロック解除)やクレジットカード詐欺の検知(異常購入に対するアラートのトリガーなど)に使用されていることがわかります。
人工知能(AI) と機械学習には、教師あり学習と教師なし学習という 2 つの基本的なアプローチがあります。主な違いは、一方は結果を予測するためにラベル付けされたデータを使用するのに対し、もう一方はラベル付けされたデータを使用しないという点です。ただし、2 つのアプローチの間には微妙な違いがあり、一方が他方よりも優れている重要な領域があります。この投稿では違いを明確にし、状況に応じて最適なアプローチを選択できるようにします。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
教師あり学習は、ラベル付けされたデータ セットの使用によって定義される機械学習のアプローチです。これらのデータ・セットは、データの分類や結果の正確な予測を行うため、アルゴリズムをトレーニングまたは「監督」するように設計されています。このモデルは、ラベル付けされたインプットとアウトプットを使用して精度を測定し、時間をかけて学習します。
教師あり学習は、データ・マイニングの場合、分類と回帰の2つの問題に分けることができます。
教師なし学習では、機械学習アルゴリズムを使用して、ラベルのないデータセットを分析およびクラスターします。これらのアルゴリズムは、人間の介入を必要とせずにデータに隠されたパターンを発見します(したがって、「教師なし」)。
教師なし学習モデルは、クラスタリング、アソシエーション、次元削減という3つの主要タスクに利用されます。
2つのアプローチの主な違いは、ラベル付きデータ・セットの使用です。簡単に言うと、教師あり学習では、ラベル付きのインプットとアウトプットを使用しますが、教師なし学習アルゴリズムでは使用しません。
教師あり学習では、アルゴリズムは、データに対して予測を繰り返し行い、正しい答えに向けて調整することにより、トレーニング用データ・セットから「学習」します。教師あり学習アルゴリズムは教師なし学習モデルよりも正確である傾向がありますが、データに適切なラベルを付けるには事前に人間による介入が必要です。たとえば、教師あり学習モデルは、時間帯や気象条件などに基づいて、通勤にかかる時間を予測できます。しかし、その前に、雨天候によって運転時間が延長されることを理解するようトレーニングする必要があります。
対照的に、教師なし学習モデルは独自に動作し、ラベルのないデータの固有の構造を発見します。出力変数を検証するには、ある程度の人間の介入が必要であることに注意してください。たとえば、教師なし学習モデルは、オンライン ショッパーが複数の商品をまとめて購入することが多いことを識別できます。ただし、データ アナリストは、ベビー服をおむつ、アップルソース、ストロー付きカップの注文と一緒にグループ化することが推奨エンジンにとって合理的であることを検証する必要があります。
状況に適したアプローチを選択するかどうかは、データサイエンティストがデータの構造と量、ユースケースをどのように評価するかによって異なります。決定を下すには、必ず次の操作を行ってください。
ビッグデータの分類は教師あり学習において大きな課題となる可能性がありますが、成果は非常に正確で信頼できるものです。対照的に、教師なし学習では大量のデータをリアルタイムで処理できます。しかし、データがどのようにクラスター化されているかについて透明性に欠け、不正確な成果を招くリスクが高くなります。ここで半教師あり学習が登場します。
教師あり学習と教師なし学習のどちらを使用するかを決められない場合どうすべきか?半教師あり学習は、ラベル付きデータとラベルなしデータの両方を含むトレーニング データ セットを使用する、最適な方法です。これは、データから主要な機能を抽出することが困難な場合、つまり大量のデータがある場合に特に役立ちます。
半教師あり学習は、少量のトレーニング データで精度を大幅に向上させることができる医療画像に最適です。たとえば、放射線科医は、CTスキャンの小さなサブセットに腫瘍や病気のラベルを付けることで、どの患者がより多くの医療を必要とする可能性があるかを機械がより正確に予測できるようになります。
機械学習モデルは、データから洞察を得ることで私たちの世界を改善する強力な方法です。教師あり学習および教師なし学習で使用される特定のアルゴリズムについて詳細はこちら、Learn Hubの記事をご覧ください。ディープラーニングとニューラル・ネットワークについて詳しく解説した、さらに一歩進んだブログ記事もチェックすることをお勧めします。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。