教師あり学習とは
教師あり学習をwatsonx.aiで適用する AI関連の最新情報を購読する
以下のクラウド、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
教師あり学習とは

教師あり学習は、教師あり機械学習とも呼ばれ、機械学習人工知能のサブカテゴリーです。その定義は、ラベル付きデータ・セットを使用して、データの分類や結果の予測を正確に行うアルゴリズムをトレーニングすることとされています。

入力データがモデルに入力されると、モデルが適合するまでに、重みを調整します。これは相互検証プロセスの一部として行われます。教師あり学習は、受信トレイとは別のフォルダーにスパムを分類するなど、組織が実際に直面するさまざまな問題を、大規模に解決するのに役立ちます。これは、精度の高い機械学習モデルを構築するために使用できます。

エンタープライズAIを拡張するために、AIのガバナンスがビジネス上不可欠である理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

関連コンテンツ

IDCレポートを読む

教師あり学習の仕組み

教師あり学習では、トレーニング・セットを使用して、望ましい出力を得るためにモデルを教育します。このトレーニング・データ・セットには、入力と正しい出力が含まれており、これによってモデルは時間をかけて学習していきます。このアルゴリズムは、損失関数によって精度を測定し、誤差が最小限に抑えられるまで調整します。

教師あり学習は、データ・マイニングの際に、分類および回帰の2つのタイプの問題に分けられます。

  • 分類では、アルゴリズムを使用して、テスト・データを特定のカテゴリーに正確に割り当てます。データ・セット内の特定のエンティティーを認識し、そのエンティティーがどのようにラベルを付けられる、または定義されるべきかについて、何らかの結論を導き出そうとします。一般的な分類アルゴリズムには、線形分類器、サポート・ベクター・マシン(SVM)、決定木、k近傍法、ランダム・フォレストなどがありますが、これらについては以下で詳しく説明します。
  • 回帰は、従属変数と独立変数の関係を理解するために使用されます。一般的には、あるビジネスの売上高などの予測に使用されます。一般的な回帰アルゴリズムとしては、線形回帰ロジスティック回帰、および多項式回帰があります。
教師あり学習アルゴリズム

教師あり機械学習プロセスでは、さまざまなアルゴリズムと計算手法が使用されています。ここでは、RやPythonなどのプログラムを使って計算が行われることが多い、最も一般的な学習方法について簡単に説明します。

  • ニューラル・ネットワーク:主にディープラーニング・アルゴリズムに使用されるニューラル・ネットワークは、ノードの層を介して人間の脳の相互接続を模倣することによリ、トレーニング・データを処理します。各ノードは、入力、重み、バイアス(またはしきい値)と出力で構成されます。出力値が特定のしきい値を超えると、ノードが「起動」つまりアクティブ化され、ネットワーク内の次の層にデータが渡されます。ニューラル・ネットワークは、教師あり学習によってこのマッピング関数を学習し、勾配降下法のプロセスを通じて損失関数に基づいた調整を行います。コスト関数がゼロまたはゼロに近い値であれば、モデルの精度に自信を持つことができます。
  • ナイーブ・ベイズ:ナイーブ・ベイズは、ベイズの定理から条件付き独立の分類の原則を採用した分類手法です。これは、ある結果の確率において、ある特徴の存在が他の特徴の存在に影響を与えず、各予測子がその結果に等しい影響を与えることを意味します。ナイーブ・ベイズ分類器には、多項分布、ベルヌーイ分布、ガウシアン・ナイーブ・ベイズという3つのタイプがあります。この手法は、主にテキストの分類、スパムの識別、推奨システムに使用されます。
  • 線形回帰:線形回帰は、従属変数と1つ以上の独立変数との関係を特定するために使用され、通常、将来の結果を予測するために利用されます。独立変数が1つ、従属変数が1つの場合は、単純線形回帰と呼ばれます。独立変数の数が増えると、多重線形回帰と呼ばれるようになります。線形回帰の各タイプについては、最小二乗法で算出された最適な線をプロットしようとします。しかし、他の回帰モデルとは異なり、この線はグラフにプロットされると直線になります。
  • ロジスティック回帰:線形回帰は従属変数が連続的な場合に活用されるのに対し、ロジスティック回帰は従属変数がカテゴリー的、つまり「真」と「偽」、「はい」と「いいえ」のようなバイナリー出力を持つ場合に選択されます。どちらの回帰モデルも、データ入力間の関係を理解しようとするものですが、ロジスティック回帰は主に、スパムの識別などの二項分類問題を解決するために使用されます。
  • サポート・ベクター・マシン(SVM):サポート・ベクター・マシンは、Vladimir Vapnik氏により開発された一般的な教師あり学習モデルで、データの分類と回帰の両方に使用されます。そのため、一般的には分類の問題に活用され、2つのクラスのデータ・ポイント間の距離が最大になる超平面を構築します。この超平面は決定境界としても知られており、データ・ポイントのクラス(例:オレンジとリンゴ)を平面の両側に分けます。
  • K近傍法:KNNアルゴリズムとしても知られるk近傍法は、ノンパラメトリックなアルゴリズムで、データ・ポイントを他の利用可能なデータに対する近接性と関連性に基づいて分類します。このアルゴリズムは、類似したデータ・ポイントが互いに近くに見つかることを前提としています。その結果、通常はユークリッド距離を用いてデータ・ポイント間の距離を計算し、最も頻度の高いカテゴリーまたは平均的なカテゴリーに基づいてカテゴリーを割り当てることになります。その使いやすさと計算時間の短さから、データサイエンティストに好まれるアルゴリズムですが、テスト・データ・セットが増えると処理時間が長くなるため、分類タスクには魅力的なものではありません。KNNは、推奨製品の検索エンジンや画像認識などによく使われます。
  • ランダム・フォレスト:ランダム・フォレストは、分類と回帰の両方の目的に使用される、柔軟な教師あり機械学習アルゴリズムです。「フォレスト」は、相関性のない決定木の集合体を参照し、それらを結合させることでバリアンスを減らし、より正確なデータ予測を生成します。

 

教師なし学習、教師あり学習、および半教師あり学習の違い

教師なし機械学習と教師あり機械学習は、一緒に議論されることがよくあります。教師あり学習とは異なり、教師なし学習はラベルなしデータを使用します。そのデータから、クラスタリングや関連付けの問題を解決するためのパターンを発見します。この手法は、データ・セット内の共通の属性が不明な場合に特に有効です。一般的なクラスタリング・アルゴリズムには、階層的手法、k平均法、ガウス混合モデルがあります。

半教師あり学習は、与えられた入力データの一部にしかラベルが付けられていない場合に行われます。教師あり学習では、データを適切にラベル付けするためにドメインの専門知識に頼ることから時間とコストがかかるため、教師なし学習や半教師あり学習がより魅力的な選択肢となります。

これらのアプローチの違いを詳しく知りたい方は、「教師あり学習と教師なし学習の違いとは(Supervised vs. Unsupervised Learning: What's the Difference?)」をご覧ください。

教師あり学習の例

教師あり学習モデルは、以下のような数多くのビジネス・アプリケーションの構築や進化に利用できます。

  • 画像認識とオブジェクト認識:教師あり学習アルゴリズムは、映像や画像から対象物を見つけ出し、分離し、分類できるため、さまざまなコンピューター・ビジョンの技術や画像解析に応用できます。
  • 予測分析:教師あり学習モデルは、さまざまなビジネス・データ・ポイントに対する深い洞察を提供する予測分析システムの構築に幅広く使用されています。これにより、企業は与えられた出力変数に基づいて特定の結果を予測することができ、ビジネス・リーダーが意思決定を正当化したり、組織の利益に転換したりするのに役立ちます。
  • 顧客の感情分析:教師あり機械学習アルゴリズムを使用することで、組織は、人間による介入をほとんど必要とすることなく、文脈、感情、意図などが含まれた大量のデータから重要な情報を抽出・分類することができます。これは、顧客とのやりとりをより深く理解する上で非常に有効であり、ブランド・エンゲージメントの取り組みを向上させるために利用できます。
  • スパム検出:スパム検出は、教師あり学習モデルのもう1つの例です。教師あり分類アルゴリズムを使用して、組織はデータベースをトレーニングし、新しいデータのパターンや異常を認識して、スパムと非スパム関連の対応を効果的に整理できます。
教師あり学習の課題

教師あり学習には、データによる深い洞察や自動化の向上など、ビジネス上のメリットをもたらしますが、持続可能な教師あり学習を構築するにはいくつかの課題があります。その課題のいくつかを以下に挙げます。

  • 教師あり学習モデルは、正確に構造化するためには、ある程度の専門知識が必要となります。
  • 教師あり学習モデルのトレーニングは、非常に時間がかかります。
  • データ・セットは、人為的なミスが発生する可能性が高く、その結果、アルゴリズムが誤って学習してしまう可能性があります。
  • 教師なし学習モデルとは異なり、教師あり学習はデータのクラスタリングや分類をそれ自体が行うことはできません。
関連ソリューション
IBM Watson® Studio

信頼性の高いAIを、あらゆるクラウド上で構築、拡張します。ModelOpsのためのAIライフサイクルを自動化します。

IBM Watson Studioの詳細はこちら
IBM Cloud Pak for Data

適切なデータを、適切なタイミングで、適切な人に、どこでもつなげることができます。

Cloud Pak for Dataの詳細はこちら
IBM Cloud ソリューション

ハイブリッドオープンレジリエンス デジタル変革を実現するプラットフォームでありパートナー

クラウド ソリューションを探索する
参考情報 生成AI技術に関する無料のハンズオン学習

プロンプト・エンジニアリング、大規模な言語モデル、オープンソース・プロジェクトなど、AIと生成AIの基本概念を説明します。

教師あり学習と教師なし学習の違いとは(Supervised vs. Unsupervised Learning: What’s the Difference?)

この記事では、教師あり学習モデルと教師なし学習モデルという2つのデータサイエンス・アプローチの基本について説明します。

教師あり学習モデル

サポート・ベクター・マシンや確率的分類器などの教師あり学習アプローチの詳細について説明します

次のステップ

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、デプロイしましょう。わずかなデータ、わずかな時間でAIアプリケーションを構築できます。

watsonx.aiの詳細はこちら デモを予約