教師あり学習とは
教師あり学習の仕組みと、精度の高い機械学習モデルを構築するための方法についてご説明します
緑色の三角形が描かれた黒色の背景
教師あり学習とは

教師あり学習は、教師あり機械学習とも呼ばれ、 機械学習 と 人工知能のサブカテゴリーです。 その定義は、ラベル付きデータセットを使用して、データの分類や結果の予測を正確に行うアルゴリズムをトレーニングすることである、とされています。 入力データがモデルに入力されると、モデルが適合するまでに、重みを調整します。これは相互検証プロセスの一部として行われます。 教師あり学習は、受信トレイとは別のフォルダーにスパムを分類するなど、組織が実際に直面するさまざまな問題を、大規模に解決するのに役立ちます。

注目の製品

Watson Studio

SPSS Statistics

教師あり学習のしくみ

教師あり学習では、トレーニング・セットを使用して、望ましい出力を得るためにモデルを教育します。 このトレーニング・データセットには、入力と正しい出力が含まれており、これによってモデルは時間をかけて学習していきます。 このアルゴリズムは、損失関数によって精度を測定し、誤差が最小限に抑えられるまで調整します。

教師あり学習は、データ・マイニングの際に、分類および回帰の2つのタイプの問題に分けられます。

  • 分類 とは、アルゴリズムを用いて、テスト・データを特定のカテゴリーに正確に割り当てることです。 データセット内の特定のエンティティを認識し、そのエンティティがどのようにラベルを付けられる、または定義されるべきかについて、何らかの結論を導き出そうとします。 一般的な分類アルゴリズムには、線形分類、サポート・ベクター・マシン(SVM)、決定木、k近傍法、ランダム・フォレストなどがありますが、これらについては以下で詳しくご説明します。
  • 回帰 は、従属変数と独立変数の関係を理解するために使用されます。 一般的には、あるビジネスの売上高などの予測に使用されます。 回帰アルゴリズムとしては、 線形回帰、ロジスティック回帰、多項式回帰などが有名です。
教師あり学習アルゴリズム

教師あり機械学習プロセスでは、さまざまなアルゴリズムと計算手法が使用されています。 ここでは、RやPythonなどのプログラムを使って計算が行われることが多い、最も一般的な学習方法について簡単にご説明します。

  • ニューラル・ネットワーク: 主にディープ・ラーニングのアルゴリズムで活用され、 ニューラル・ネットワーク は、ノードの層を通して人間の脳の相互接続性を模倣することによって、トレーニング・データを処理します。 各ノードは、入力、重み、バイアス(またはしきい値)、出力で構成されています。 その出力値が所定のしきい値を超えた場合は、その出力値がノードを「点火」つまり活動化させ、ネットワーク内の次の層にデータを渡します。 ニューラル・ネットワークは、教師あり学習によってこのマッピング機能を学習し、勾配下降のプロセスを通じて損失関数に基づいて調整を行います。 コスト関数がゼロかそれに近い値であれば、正しい答えを導き出すモデルの精度に自信を持つことができます。
  • ナイーブ・ベイズ: ナイーブ・ベイズは、ベイズの定理から条件付き独立の分類の原則を採用した分類手法です。 これは、ある結果の確率において、ある特徴の存在が他の特徴の存在に影響を与えず、各予測子がその結果に等しい影響を与えることを意味します。 ナイーブ・ベイズ分類器には3つのタイプがあります。多項分布、ベルヌーイ分布、ガウス・ナイーブ・ベイズです。 この手法は、主にテキストの分類、スパムの識別、推奨システムに使用されます。
  • 線形回帰: 線形回帰は、従属変数と1つ以上の独立変数との関係を特定するために使用され、通常、将来の結果を予測するために活用されます。 独立変数が1つ、従属変数が1つの場合は、単純線形回帰と呼ばれます。 独立変数の数が増えると、重回帰と呼ばれるようになります。 線形回帰の各タイプについては、最小二乗法で算出された最適な線をプロットしようとします。 しかし、他の回帰モデルとは異なり、この線はグラフにプロットされると直線になります。
  • ロジスティック回帰: 線形回帰は従属変数が連続的な場合に活用されるのに対し、ロジスティック回帰は従属変数がカテゴリー的、つまり「真」と「偽」、「はい」と「いいえ」のようなバイナリー出力を持つ場合に選択されます。どちらの回帰モデルも、データ入力間の関係を理解しようとするものですが、ロジスティック回帰は主に、スパムの識別などの二項分類問題を解決するために使用されます。
  • サポート・ベクター・マシン(SVM): サポート・ベクター・マシンは、Vladimir Vapnik氏により開発された一般的な教師あり学習モデルで、データの分類と回帰の両方に使用されます。 そのため、一般的には分類の問題に活用され、2つのクラスのデータ・ポイント間の距離が最大になる超平面を構築します。 この超平面は決定境界としても知られていて、データ・ポイントのクラス(例:オレンジとリンゴ)を平面の両側に分けます。
  • k近傍法:KNNアルゴリズムとしても知られているk近傍法は、ノンパラメトリックなアルゴリズムで、データ・ポイントを他の利用可能なデータに対する近接性と関連性に基づいて分類します。 このアルゴリズムは、類似したデータ・ポイントが互いに近くに見つかることを前提としています。 その結果、通常はユークリッド距離を用いてデータ・ポイント間の距離を計算し、最も頻度の高いカテゴリーまたは平均的なカテゴリーに基づいてカテゴリーを割り当てることになります。 その使いやすさと計算時間の短さから、データ・サイエンティストに好まれるアルゴリズムですが、テスト・データセットが増えると処理時間が長くなるため、分類タスクには魅力的なものではありません。 KNNは、推奨製品の検索エンジンや画像認識などによく使われます。
  • ランダム・フォレスト:ランダム・フォレストは、分類と回帰の両方の目的に使用される、柔軟な教師あり機械学習アルゴリズムです。 「フォレスト」は、相関性のない決定木の集合体を参照し、それらを結合させることでバリアンスを減らし、より正確なデータ予測を生成します。

 

教師なし学習と教師あり学習と半教師あり学習

教師なし機械学習 と教師あり学習は、通常一緒にまとめて議論されます。 教師あり学習とは異なり、教師なし学習はラベルなしデータを使用します。 そのデータから、クラスタリングや関連付けの問題を解決するためのパターンを発見します。 この機能は、データ・セット内の共通の属性が不明な場合に特に有効です。 一般的なクラスタリング。アルゴリズムには、階層的手法、k平均法、ガウス混合モデルがあります。

半教師あり学習は、与えられた入力データの一部にしかラベルが付けられていない場合に行われます。 教師あり学習では、データを適切にラベル付けするためにドメインの専門知識に頼ることから時間とコストがかかるため、教師なし学習や半教師あり学習が、より魅力的な選択肢となります。

これらのアプローチの違いを詳しく知りたい方は、「教師あり学習と教師なし学習の違いとは(Supervised vs. Unsupervised Learning: What's the Difference?)

をご覧ください。
教師あり学習の例

教師あり学習モデルは、以下のような数多くのビジネス・アプリケーションの構築や進化に利用できます。

  • 画像認識とオブジェクト認識: 教師あり学習アルゴリズムは、映像や画像から対象物を見つけ出し、分離し、分類できるため、様々なコンピューター・ビジョンの技術や画像解析に応用できます。
  • 予測分析: 教師あり学習モデルは、様々なビジネス・データ・ポイントに対する深い洞察を提供する予測分析システムの構築に広く使用されています。 これにより、企業は与えられた出力変数に基づいて特定の結果を予測することができ、ビジネス・リーダーが意思決定を正当化したり、組織の利益に転換するのに役立ちます。
  • 顧客の感情分析: 教師あり機械学習アルゴリズムを使用することで、企業は、文脈、感情、意図などが含まれた大量のデータから、人間による介入をほとんど必要とすることなく、重要な情報を抽出・分類することができます。 これは、お客様とのやりとりをより深く理解する上で非常に有効であり、ブランド・エンゲージメントの取り組みを向上させるために利用できます。
  • スパム検出: スパム検出は、教師あり学習モデルの、また別の例になります。 教師付き分類アルゴリズムを使用して、企業はデータベースを学習し、新しいデータのパターンや異常を認識して、スパムと非スパム関連の対応を効果的に整理できます。
教師あり学習の課題

教師あり学習には、データによる深い洞察や自動化の向上など、ビジネス上のメリットをもたらしますが、持続可能な教師あり学習を構築するにはいくつかの課題があります。 その課題のいくつかを以下に挙げます。

  • 教師あり学習モデルは、正確に構造化するためには、ある程度の専門知識が必要となります。
  • 教師あり学習モデルのトレーニングは、非常に時間がかかります。
  • データセットは、人為的なミスが発生する可能性が高く、その結果、アルゴリズムが誤って学習してしまう可能性があります。
  • 教師なし学習のモデルとは異なり、教師あり学習は、データのクラスタリングや分類を教師あり学習モデル自体が行うことはできません。
関連ソリューション
IBM Watson® Studio

信頼性の高いAIを、任意のクラウド上で構築して拡大します。 そして、ModelOps用のAIライフサイクルを自動化します。

IBM Watson® Studioの詳細はこちら
Cloud Pak for Data

適切なデータを、適切なタイミングで、適切な人に、どこでもつなげることができます。

Cloud Pak for Dataの詳細はこちら
IBM Cloudソリューション

ハイブリッド。 オープン。 レジリエント。 デジタル・トランスフォーメーションのためのお客様のプラットフォームであり、パートナーでもあります。

クラウド・ソリューションの詳細はこちら
参考情報 教師あり学習と教師なし学習の違いとは(Supervised vs. Unsupervised Learning: What's the Difference?)

この記事では、教師あり学習モデルと教師なし学習モデルの2つのタイプのデータサイエンス・アプローチの基本についてご説明しています。

教師あり学習モデル

サポート・ベクター・マシンや確率的分類などの教師あり学習アプローチの詳細についてご説明します

詳細情報はこちら

教師あり学習モデルは、手作業による分類作業を省き、ラベル付きデータに基づいて将来の予測を行うための貴重なソリューションとなります。 しかし、機械学習アルゴリズムを設定するには、データ・モデルの過剰適合を回避するためにも、人間の知識とノウハウが必要です。IBMとIBMのデータサイエンス・チームとAIチームは、数多くのビジネス・ユース・ケースを活用し、教師あり学習モデルの開発と導入に何年もの歳月を費やしてきました。 IBM Cloud Pak for Data上のIBM Watson Studioなどの強力なツールを利用すれば、企業は、データがどこにあるかに関わらず、拡張性の高い機械学習モデルを作成することができ、また、すべてが、IBMの堅牢なハイブリッド・マルチクラウド環境でサポートされます。

IBM Watson® Studioの詳細はこちら