線型回帰
ロジスティック回帰
データサイエンス
教師あり学習では、トレーニングセットを使用して、望ましい出力を得るためにモデルを教育します。 このトレーニング・データセットには、入力と正しい出力が含まれており、これによってモデルは時間をかけて学習していきます。 このアルゴリズムは、損失関数によって精度を測定し、誤差が十分に小さくなるまで調整します。
教師付き学習は、データ・マイニングの際に、分類および回帰の2種類の問題に分けられます
主にディープ・ラーニングのアルゴリズムに用いられ、 ニューラルネットワーク 人間の脳の相互接続性を模倣して、ノードを何層にも重ねてトレーニングデータを処理します。 各ノードは、入力、重み、バイアス(またはしきい値)、出力で構成されています。 その出力値が所定のしきい値を超えると、ノードが「発火」または「活性化」し、ネットワークの次の層にデータを渡します。 ニューラルネットワークは、このマッピング関数を教師付き学習で学習し、勾配降下法というプロセスで損失関数に基づいて調整します。 コスト関数がゼロかそれに近い値であれば、正しい答えを導き出すモデルの精度に自信を持つことができます。
ナイーブベイズは、ベイズの定理からクラス条件付き独立の原理を採用した分類手法です。 これは、ある結果の確率において、ある特徴の存在が他の特徴の存在に影響を与えず、各予測子がその結果に等しい影響を与えることを意味します。 3つのナイーブベイズ分類器の種類があります。多項分布、ベルヌーイ分布、およびガウスナイーブベイズです。 この技術は、主にテキストの分類、スパムの識別、および推薦システムに使用されます。
線形回帰は、従属変数と1つまたは複数の独立変数との関係を明らかにするために使用され、通常、将来の結果を予測するために活用されます。 独立変数が1つ、従属変数が1つの場合は、単純線形回帰と呼ばれます。 独立変数の数が増えると、重回帰と呼ばれるようになります。 線形回帰の種類ごとに、最小二乗法で算出した最適な直線をプロットすることを目指します。 しかし、他の回帰モデルとは異なり、この線はグラフにプロットすると直線になります。
線形回帰は従属変数が連続的な場合に活用されるのに対し、統計回帰は従属変数がカテゴリー的、つまり「真」と「偽」、「はい」と「いいえ」のような二値の出力を持つ場合に選択されます。どちらの回帰モデルもデータ入力間の関係を理解しようとするものですが、ロジスティック回帰は主に、スパムの識別などの二値分類問題を解決するために使用されます。
サポートベクターマシンは、Vladimir Vapnikによって開発された一般的な教師付き学習モデルで、データの分類と回帰の両方に使用されます。 そのため、一般的には分類問題に活用され、2つのクラスのデータポイント間の距離が最大になる超平面を構築します。 この超平面は決定境界と呼ばれ、データポイントのクラス(例:オレンジとリンゴ)を平面の両側に分けます。
KNNアルゴリズムとして知られるk-近傍法は、ノンパラメトリックなアルゴリズムで、データポイントを他の利用可能なデータへの近接性と関連性に基づいて分類します。 このアルゴリズムは、類似したデータポイントが互いに近くに見つかることを前提としています。 その結果、通常はユークリッド距離を用いてデータポイント間の距離を計算し、最も頻度の高いカテゴリーまたは平均的なカテゴリーに基づいてカテゴリーを割り当てることになります。
その使いやすさと計算時間の短さから、データサイエンティストに好まれるアルゴリズムですが、テストデータセットが増えると処理時間が長くなり、分類タスクには魅力的ではありません。 KNNは、リコメンデーションエンジンや画像認識などによく使われます。
ランダムフォレストは、分類と回帰の両方の目的で使用される、柔軟な教師付き機械学習アルゴリズムです。 「フォレスト」は、相関性のない決定木の集合体を参照し、それらをマージすることで分散を減らし、より正確なデータ予測をします。
教師なし機械学習 と教師あり学習は頻繁に一緒に議論されます。 教師あり学習とは異なり、教師なし学習はラベルなしデータを使用します。 そのデータから、クラスタリングや関連付けの問題を解決するためのパターンを発見します。 この機能は、データセット内の共通のプロパティが不明な場合に特に有効です。 一般的なクラスタリングアルゴリズムは、階層的手法、k平均法、およびガウス混合モデルです。
半教師付き学習は、与えられた入力データの一部にしかラベルが付けられていない場合に行われます。 教師付き学習では、データを適切にラベル付けするためにドメインの専門知識に頼るのは時間とコストがかかるため、教師なし学習や半教師付き学習はより魅力的な選択肢となります。
これらのアプローチの違いを深く知りたい方は以下をご覧ください。「教師あり学習と教師なし学習:違いは何ですか?」
教師付き学習モデルは、以下のような数多くのビジネスアプリケーションの構築や進化に利用できます。
教師あり学習にはデータの深い洞察力や自動化の向上など、ビジネス上の利点をもたらしますが、持続可能な教師あり学習の構築にはいくつかの課題があります。 これらの課題のいくつかを次に示します。
教師付き学習モデルは、手作業による分類作業を省き、ラベル付きデータに基づいて将来の予測を行うための貴重なソリューションとなります。 しかし、機械学習アルゴリズムをフォーマットするには、データモデルの過剰適合を回避するために、人間の知識とノウハウが必要です。
IBMとそのデータサイエンスおよびAIチームは、数多くのビジネスユースケースを持つ教師付き学習モデルの開発と展開を何年もかけて完成させてきました。 IBM Cloud Pak for Data 上の IBM Watson Studioなどの強力なツールを利用することで、企業は、データがどこにあるかに関わらず、拡張性の高い機械学習モデルを作成することができ、また、IBMの堅牢なハイブリッド・マルチクラウド環境でサポートされます。
独自の教師付き機械学習モデルを作成するためのIBMの支援方法については、 IBM Watson Studioをご覧ください。
IBMidと IBM Cloudアカウントにご登録ください。