教師あり学習
クラウドとデータ
教師あり学習

教師あり学習の仕組みと、精度の高い機械学習モデルを構築するための方法を学びます。

注目の製品

Watson Studio

SPSS Statistics

https://www.ibm.com/jp-ja/products/cloud-pak-for-data


教師あり学習とは何ですか?

教師付き学習は、教師付き機械学習とも呼ばれ、 機械学習 と 人工知能のサブカテゴリーです。 ラベル付きデータセットを使用して、データの分類や結果の予測を正確に行うアルゴリズムをトレーニングすることで定義されます。 入力データがモデルに入力されると、モデルが適合するまで重みを調整します。これは相互検証プロセスの一部として行われます。 教師あり学習は、受信トレイとは別のフォルダーにスパムを分類するなど、組織が実際に直面するさまざまな問題を大規模に解決するのに役立ちます。

関連リンク

線型回帰

ロジスティック回帰

データサイエンス


教師あり学習のしくみ

教師あり学習では、トレーニングセットを使用して、望ましい出力を得るためにモデルを教育します。 このトレーニング・データセットには、入力と正しい出力が含まれており、これによってモデルは時間をかけて学習していきます。 このアルゴリズムは、損失関数によって精度を測定し、誤差が十分に小さくなるまで調整します。

教師付き学習は、データ・マイニングの際に、分類および回帰の2種類の問題に分けられます

  • 分類とは、アルゴリズムを用いてテストデータを特定のカテゴリーに正確に割り当てることです。 データ・セット内のエンティティを認識し、それらのエンティティがどのようにラベルを付けまたは定義されるべきかについて、何らかの結論を導き出そうとします。 一般的な分類アルゴリズムは、線形分類、サポートベクターマシン(SVM)、決定木、k-近傍法、およびランダム・フォレストなどがありますが、これらについては以下で詳しく説明します。
  • 回帰は、従属変数と独立変数の関係を理解するために使用されます。 一般的には、あるビジネスの売上高などの予測に使用されます。回帰アルゴリズムとしては、線形回帰ロジスティック回帰、および多項式回帰などが有名です。

教師あり学習アルゴリズム

機械学習プロセスでは、さまざまなアルゴリズムと計算手法が使用されます。 ここでは、RやPythonなどのプログラムを使って計算する、最も一般的な学習方法について簡単に説明します。

 

ニューラル・ネットワーク

 

主にディープ・ラーニングのアルゴリズムに用いられ、 ニューラルネットワーク 人間の脳の相互接続性を模倣して、ノードを何層にも重ねてトレーニングデータを処理します。 各ノードは、入力、重み、バイアス(またはしきい値)、出力で構成されています。 その出力値が所定のしきい値を超えると、ノードが「発火」または「活性化」し、ネットワークの次の層にデータを渡します。 ニューラルネットワークは、このマッピング関数を教師付き学習で学習し、勾配降下法というプロセスで損失関数に基づいて調整します。 コスト関数がゼロかそれに近い値であれば、正しい答えを導き出すモデルの精度に自信を持つことができます。

ナイーブベイズ(単純ベイズ)

 

ナイーブベイズは、ベイズの定理からクラス条件付き独立の原理を採用した分類手法です。 これは、ある結果の確率において、ある特徴の存在が他の特徴の存在に影響を与えず、各予測子がその結果に等しい影響を与えることを意味します。 3つのナイーブベイズ分類器の種類があります。多項分布、ベルヌーイ分布、およびガウスナイーブベイズです。 この技術は、主にテキストの分類、スパムの識別、および推薦システムに使用されます。

線型回帰

 

線形回帰は、従属変数と1つまたは複数の独立変数との関係を明らかにするために使用され、通常、将来の結果を予測するために活用されます。 独立変数が1つ、従属変数が1つの場合は、単純線形回帰と呼ばれます。 独立変数の数が増えると、重回帰と呼ばれるようになります。 線形回帰の種類ごとに、最小二乗法で算出した最適な直線をプロットすることを目指します。 しかし、他の回帰モデルとは異なり、この線はグラフにプロットすると直線になります。

ロジスティック回帰

 

線形回帰は従属変数が連続的な場合に活用されるのに対し、統計回帰は従属変数がカテゴリー的、つまり「真」と「偽」、「はい」と「いいえ」のような二値の出力を持つ場合に選択されます。どちらの回帰モデルもデータ入力間の関係を理解しようとするものですが、ロジスティック回帰は主に、スパムの識別などの二値分類問題を解決するために使用されます。

サポートベクターマシン(SVM)

 

サポートベクターマシンは、Vladimir Vapnikによって開発された一般的な教師付き学習モデルで、データの分類と回帰の両方に使用されます。 そのため、一般的には分類問題に活用され、2つのクラスのデータポイント間の距離が最大になる超平面を構築します。 この超平面は決定境界と呼ばれ、データポイントのクラス(例:オレンジとリンゴ)を平面の両側に分けます。

k-近傍法

 

KNNアルゴリズムとして知られるk-近傍法は、ノンパラメトリックなアルゴリズムで、データポイントを他の利用可能なデータへの近接性と関連性に基づいて分類します。 このアルゴリズムは、類似したデータポイントが互いに近くに見つかることを前提としています。 その結果、通常はユークリッド距離を用いてデータポイント間の距離を計算し、最も頻度の高いカテゴリーまたは平均的なカテゴリーに基づいてカテゴリーを割り当てることになります。

その使いやすさと計算時間の短さから、データサイエンティストに好まれるアルゴリズムですが、テストデータセットが増えると処理時間が長くなり、分類タスクには魅力的ではありません。 KNNは、リコメンデーションエンジンや画像認識などによく使われます。

ランダム・フォレスト

 

ランダムフォレストは、分類と回帰の両方の目的で使用される、柔軟な教師付き機械学習アルゴリズムです。 「フォレスト」は、相関性のない決定木の集合体を参照し、それらをマージすることで分散を減らし、より正確なデータ予測をします。


教師なしvs.教師ありvs.半教師あり学習

教師なし機械学習 と教師あり学習は頻繁に一緒に議論されます。 教師あり学習とは異なり、教師なし学習はラベルなしデータを使用します。 そのデータから、クラスタリングや関連付けの問題を解決するためのパターンを発見します。 この機能は、データセット内の共通のプロパティが不明な場合に特に有効です。 一般的なクラスタリングアルゴリズムは、階層的手法、k平均法、およびガウス混合モデルです。

半教師付き学習は、与えられた入力データの一部にしかラベルが付けられていない場合に行われます。 教師付き学習では、データを適切にラベル付けするためにドメインの専門知識に頼るのは時間とコストがかかるため、教師なし学習や半教師付き学習はより魅力的な選択肢となります。

これらのアプローチの違いを深く知りたい方は以下をご覧ください。「教師あり学習と教師なし学習:違いは何ですか?


教師あり学習の例

教師付き学習モデルは、以下のような数多くのビジネスアプリケーションの構築や進化に利用できます。

  • 画像認識と物体認識: 教師あり学習アルゴリズムは、映像や画像から対象物を見つけ出し、分離し、分類できるため、様々なコンピュータビジョン技術や画像解析に応用できます。
  • 予測分析: 教師あり学習モデルは、様々なビジネスデータに対する深い洞察を提供する予測分析システムの構築に広く使用されています。 これにより、企業は与えられた出力変数に基づいて特定の結果を予測することができ、ビジネスリーダーが意思決定を正当化したり、組織の利益のためにピボットを行ったりするのに役立ちます。
  • 顧客の感情分析: 教師付きの機械学習アルゴリズムを使用することで、企業は大量のデータから重要な情報を抽出・分類することができ、それには文脈、感情、意図などが含まれますが、人間はほとんど介在しません。 これは、お客様とのやりとりをより深く理解する上で非常に有効であり、ブランドエンゲージメントの取り組みを向上させるために利用できます。
  • 検知: スパム検出も教師付き学習モデルの一例です。 教師付き分類アルゴリズムを使用して、企業はデータベースを学習し、新しいデータのパターンや異常を認識して、スパムと非スパム関連の対応を効果的に整理できます。

教師あり学習の課題

教師あり学習にはデータの深い洞察力や自動化の向上など、ビジネス上の利点をもたらしますが、持続可能な教師あり学習の構築にはいくつかの課題があります。 これらの課題のいくつかを次に示します。

  • 教師付き学習モデルは、正確に構造化するためには、ある程度の専門知識が必要な場合があります。
  • 教師あり学習モデルのトレーニングは、非常に時間がかかる場合があります。
  • データセットは、人為的なミスが発生する可能性が高く、その結果、アルゴリズムが誤って学習する可能性があります。
  • 教師あり学習のモデルとは異なり、教師あり学習はそれ自体でデータのクラスタリングや分類を行うことはできません。

教師あり学習とIBM

教師付き学習モデルは、手作業による分類作業を省き、ラベル付きデータに基づいて将来の予測を行うための貴重なソリューションとなります。 しかし、機械学習アルゴリズムをフォーマットするには、データモデルの過剰適合を回避するために、人間の知識とノウハウが必要です。

IBMとそのデータサイエンスおよびAIチームは、数多くのビジネスユースケースを持つ教師付き学習モデルの開発と展開を何年もかけて完成させてきました。  IBM Cloud Pak for Data 上の IBM Watson Studioなどの強力なツールを利用することで、企業は、データがどこにあるかに関わらず、拡張性の高い機械学習モデルを作成することができ、また、IBMの堅牢なハイブリッド・マルチクラウド環境でサポートされます。

独自の教師付き機械学習モデルを作成するためのIBMの支援方法については、 IBM Watson Studioをご覧ください。

IBMidと IBM Cloudアカウントにご登録ください。


関連ソリューション

IBM Watson Studio

信頼性の高いAIを、任意のクラウド上で構築して拡大できます。 ModelOps用のAIライフサイクルを自動化します。


Cloud Pak for Data

適切なデータを、適切なタイミングで、適切な人に、どこでもつなげることができます。


IBM Cloudソリューション

ハイブリッド、 オープン レジリエント デジタル変革のためのプラットフォームとパートナー。