教師あり学習とは| IBM

執筆者

Staff writer

Staff Editor, AI Models

IBM Think

教師あり学習とは

教師あり学習は、ラベル付けされたデータセットを使用して人工知能(AI) モデルをトレーニングし、基礎となるパターンと関係を識別する機械学習手法です。学習プロセスの目標は、新しい現実世界のデータに対して正しい出力を予測できるモデルを作成することです。

ラベル付きデータは、正しい出力または回答と共に、例となるデータ・ポイントで構成されています。入力データが機械学習アルゴリズムに投入されると、モデルが適切に適合するまで、その重み付けが調整されます。ラベル付けされたトレーニングデータは「グラウンドトゥルース」を提供し、主要な機能とデータラベルの間の関係を識別するようにモデルに明示的に教えます。

教師あり機械学習は、スパムの分類や株価の予測など、組織が実際に直面するさまざまな問題を、大規模に解決する上で役立ちます。これは、精度の高い機械学習モデルを構築するために使用できます。

グラウンドトゥルースデータとは?

グラウンド・トゥルース・データは、多くの場合、人間による注釈や測定を通じて、現実世界の結果に対してVerifyされ、モデルのトレーニング、検証、テストに使用されます。その名前が示すように、グラウンド・トゥルース・データは真実であることが確認されており、現実世界の価値と結果を反映しています。グラウンド・トゥルースは、特定のインプットデータの理想的なアウトプットを反映します。

教師あり学習は、グラウンド・トゥルース・データに基づいて、インプットとアウトプットの間の関係をモデルに教えます。教師あり学習で使用されるラベル付きデータセットは、グラウンド・トゥルース・データです。トレーニングされたモデルは、そのデータの理解を適用し、新しい未見のデータに基づいて予測を行います。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

教師あり学習の仕組み

教師あり学習では、ラベル付きトレーニング・データセットを使用して、入力データと出力データの関係を理解します。データ・サイエンティストは、入力データと対応するラベルを含むデータセットを手作業で作成します。教師あり学習では、現実世界のユースケースで新しい入力データに正しい出力を適用するモデルをトレーニングします。

トレーニング中、モデルのアルゴリズムは大規模なデータセットを処理して、入力と出力の間の潜在的な相関関係を調査します。次に、モデルの性能がテスト・データで評価され、モデルのトレーニングが成功したかどうかが分かります。交差検証は、データセットの異なる部分を使用してモデルをテストするプロセスです。

確率的勾配降下法（SGD）を含む勾配降下法ファミリーのアルゴリズムは、ニューラル・ネットワークやその他の機械学習モデルをトレーニングするときに最も一般的に使用される最適化アルゴリズム、または学習アルゴリズムです。モデルの最適化アルゴリズムは、損失関数（モデルの予測値と実際の値の間の差異を測定する方程式）を通じて精度を評価します。

損失関数は、予測が実際の値からどの程度かけ離れているかを測定します。その勾配は、誤差を減らすためにモデルのパラメーターを調整する必要がある方向を示します。トレーニング全体を通じて、最適化アルゴリズムはモデルのパラメーター、つまり動作ルールや「設定」を更新し、モデルを最適化します。

大規模なデータセットには通常多くの機能が含まれているため、データ・サイエンティストは次元削減を通じてこの複雑さを簡素化できます。このデータ・サイエンスにおける手法は、データラベルを予測するために最も重要な機能にまで、機能の数を減らします。これにより、効率を高めながら精度を維持できます。

教師あり学習の実践例

教師あり学習の例として、車両の画像を認識し、それらがどの種類の車両であるかを判断する画像分類モデルを考えてみましょう。このようなモデルは、多くのWebサイトがスパムボットを検出するために使用するCAPTCHAテストを強化できます。

このモデルをトレーニングするために、データ・サイエンティストは、多数の車両の例と対応する車両タイプ（自動車、オートバイ、トラック、自転車など）を含むラベル付きのトレーニング・データセットを作成します。モデルのアルゴリズムは、入力（車両画像）が出力（車両タイプ）を受け取るようになる学習データのパターンを識別しようとします。

モデルの推測は、テスト・セット内の実際のデータ値に対して測定され、正確な予測が行われたかどうかを判断します。予測が正確ではない場合、モデルのパフォーマンスが満足のいく正確性レベルに達するまで、トレーニング・サイクルは継続されます。一般化の原則とは、トレーニング・データと同じ分布を持つ新しいデータに対して、適切な予測を行うモデルの能力を指します。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

教師あり学習のタイプ

教師あり学習タスクは、分類問題と回帰問題に大きく分類できます。

分類

機械学習における分類では、アルゴリズムを使用してデータをカテゴリーに分類します。データセット内の特定のエンティティーを認識し、それらのエンティティーがどのようにラベル付けされるべきか、または定義されるべきかを決定しようと試みます。一般的な分類アルゴリズムには、線形分類器、サポートベクターマシン (SVM)、決定木、k 最近傍 (KNN)、ロジスティック回帰、ランダムフォレストなどがあります。

ニューラル・ネットワークは、複雑な分類問題の処理に優れています。ニューラル・ネットワークは、人間の脳を模倣したノードの層を使用してトレーニング・データを処理するディープ・ラーニング・アーキテクチャです。各ノードは、入力、重み、（しきい値に対する）バイアスと出力で構成されます。出力値が事前に設定されたしきい値を超えると、ノードが「起動」またはアクティブ化され、ネットワーク内の次のレイヤーにデータが渡されます。

回帰

回帰は、従属変数と独立変数の関係を理解するために使用されます。回帰問題では、出力は連続値であり、モデルは目標出力を予測しようとします。回帰タスクには、売上収益やファイナンシャル・プランニングの予測が含まれます。

回帰アルゴリズムには、線形回帰、 Lasso 回帰、リッジ回帰、多項式回帰の 3 つの例が含まれます。

アンサンブル学習

アンサンブル学習は、複数のモデルを同じ分類または回帰タスクでトレーニングする、教師あり学習のメタアプローチです。プール内のすべてのモデルの成果は集計され、課題を解決するための最適な全体的アプローチが特定されます。

より大きなアンサンブルモデル内の個々のアルゴリズムは、 弱学習器 または 基本モデルとして知られています。弱い学習者の中には偏りが大きいこともあれば、分散が大きい学習者もあります。理論的には、成果は、それぞれの最良の部分を組み合わせることで、バイアスと分散のトレードオフを緩和します。

教師あり学習アルゴリズム

勾配降下法などの最適化アルゴリズムは、教師あり学習タスクに優れた幅広い機械学習アルゴリズムをトレーニングします。

単純ベイズ：単純ベイズは、ベイズの定理におけるクラスの条件付き独立の原則を採用した分類アルゴリズムです。つまり、ある特徴があっても、ある結果が出る確率において、別の特徴の存在には影響を与えず、各予測変数がその結果に同等の影響を及ぼすというものです。

単純ベイズ分類器には、多項式、ベルヌーイ、ガウス単純ベイズなどがあります。この技術は、多くの場合、テキスト分類、スパム識別、推奨システムに使用されます。

線形回帰：線形回帰は、連続型の従属変数と1つ以上の独立変数の間の関係を識別するために使用されます。通常、将来の結果を予測するために使用されます。

線形回帰は、変数間の関係を直線で表します。独立変数と従属変数がそれぞれ1つだけある場合、単純線形回帰と呼ばれます。独立変数の数が増えると、この手法は多重線形回帰と呼ばれます。

非線形回帰：出力が線形入力から再現できないことがあります。このような場合、出力は非線形関数でモデル化されなければなりません。非線形回帰は、変数間の関係を非線形または曲線で表します。非線形モデルは、多くのパラメータを持つ複雑な関係を扱うことができます。

ロジスティック回帰： ロジスティック回帰は、真または偽、正または負などのバイナリー出力を持つ場合に、カテゴリー従属変数を処理します。線形回帰モデルやロジスティック回帰モデルは、データ入力間の関係性を理解しようとしますが、ロジスティック回帰は主に、スパム識別などのバイナリー分類問題を解決します。

多項回帰：他の回帰モデルと同様、多項回帰はグラフ上の変数間の関係をモデル化します。多項回帰で使用される関数は、この関係を指数関数的に表現します。多項回帰は、入力がべき乗になる回帰の特別なケースであり、線形モデルが非線形パターンに適合できるようにします。

サポート・ベクター・マシン（SVM）：サポート・ベクター・マシンは、データの分類と回帰の両方に使用されます。そうではあるものの、通常は分類の問題を処理します。ここで、SVMは決定境界または超平面を使用してデータ・ポイントのクラスを分離します。SVMアルゴリズムの目標は、データ・ポイントのグループ間の距離を最大化する超平面をプロットすることです。

K最近傍：K最近傍（KNN）は、他の利用可能なデータへの近接性と関連性に基づいてデータ・ポイントを分類するノンパラメトリックなアルゴリズムです。このアルゴリズムは、数学的にプロットすると、類似したデータ・ポイントが互いに近くに見つかることを前提としています。

使いやすく計算時間が短いため、推奨エンジンや画像認識に使用すると効率的です。しかし、テスト・データセットが増えるにつれて処理時間が長くなるため、分類タスクにおいては魅力的なものではありません。

ランダム・フォレスト： ランダム・フォレストは、分類と回帰の両方の目的に使用される、柔軟な教師あり機械学習アルゴリズムです。「フォレスト」とは、ばらつきを減らして精度を高めるために統合された、相関性のないディシジョン・ツリーのコレクションを指します。

教師あり学習と他の学習方法の比較

教師あり学習は、機械学習モデルをトレーニングするための唯一の学習方法ではありません。その他の種類の機械学習には、次のようなものがあります。

教師なし学習

半教師あり学習

自己教師あり学習

強化学習

教師あり学習と教師なし学習

教師あり学習と教師なし学習の違いは、教師なし機械学習では、客観的なグラウンドトゥルースなしでラベル付けされていないデータを使用することです。モデルはデータ内のパターンと関係性を独自に発見することになります。多くの生成AIモデルは、最初は教師なし学習でトレーニングされ、その後、ドメインの専門知識を高めるために教師あり学習でトレーニングされます。

教師なし学習は、データセット内の共通の特性が不確実なクラスタリングまたは関連付けの問題を解決するのに役立ちます。一般的なクラスタリング・アルゴリズムには、階層的手法、k平均法、ガウス混合モデルがあります。

教師なし学習の長所

探索的分析： 教師なし学習は、"何を探すべきか "が不明な場合に有効である。人間が予想しない可能性のあるデータ内の隠れた構造や異常を見つけます。
データのラベル付けがない：実世界のデータのほとんどはラベル付けされておらず、ラベル付けには多くの時間と労力がかかる。
柔軟性：教師なし学習モデルは、自律的にデータを処理できるため、新しいデータに素早く適応できる。
拡張性: グラウンド・トゥルース・ラベルを必要とせず、教師なし学習手法は、大規模なデータセットに簡単にスケーラブルです。

教師なし学習のメリット

不正確な結果：グランド・トゥルース（真実の根拠）がなければ、教師なし学習モデルが正しく訓練されたかどうかは、すぐにはわからない。
感度： ノイズの多いデータセットはトレーニングの結果に悪影響を与える可能性がある。主要な機能エンジニアリングは、データセットを正規化して、よりスムーズな教師なし学習を実現するのに役立ちます。
良いデータへの依存：すべてのトレーニングには良質なデータが必要だ。しかし、客観的なグラウンド・トゥルースがなければ、データ内のバイアスやその他のエラーにより、こうした誤解を強化するモデルが生成される可能性があります。

教師あり学習と半教師あり学習

半教師あり学習では、ラベル付けされたインプットデータの小部分とラベル付けされていないデータの大部分を使用してモデルをトレーニングします。教師あり学習用のデータに適切なラベルを付けるため、その分野の専門知識に依拠するには多くの時間と費用がかかる可能性があるため、半教師あり学習は魅力的な代替手段となります。

半教師あり学習の長所

ラベリングへの依存度が低い： 教師あり学習と比較して、半教師あり学習ではラベリングが少なくて済むため、モデル・トレーニングへの参入障壁が低くなります。
パターンの隠れた発見：教師なし学習と同様、半教師あり学習におけるラベルなしデータの使用は、他の方法では気づかれない可能性のあるパターン、関係、異常の発見につながる可能性があります。
柔軟性の向上： 半教師あり学習は、グラウンド・トゥルース・データによって基盤を構築し、それをラベルなしデータセットで強化して、モデルをより一般化できるようにします。

半教師あり学習のメリット

ノイズの感度： ラベルのないデータセットでノイズの多いデータセットは、成果を混乱させ、性能を低下させる可能性があります。
バイアス感度： ラベルのないデータセットが暗黙のバイアスをスクリーニングしない場合、それらのバイアスがトレーニング対象のモデルに転送される可能性があります。
より複雑:ラベル付きデータとラベルなしデータを 1 つのトレーニングプロセスにまとめるには、複雑なデータ処理手法が必要になったり、より多くの参考情報が必要になる場合があります。

教師あり学習と自己教師あり学習

自己教師あり学習(SSL) は、教師あり学習と教師なし学習の橋渡しとしてよく説明されます。SSLタスクは、教師あり学習データセットの手動で作成されたラベルを使用するのではなく、モデルが独自の監視信号（暗黙ラベルまたは擬似ラベル）を生成し、非構造化データからグラウンド・トゥルースを識別できるように構成されています。次に、モデルの損失関数は、実際のラベルの代わりにこれらのラベルを使用して、モデルの性能を評価します。

SSL は、事前トレーニング済みのモデルを下流のタスクに適用するプロセスである転移学習でよく使用されます。自己教師あり学習は、ラベル付けのために途方もなく高額なコストおよび多大な時間を要する大規模なデータセットを必要とする、コンピューター・ビジョンや自然言語処理（NLP）タスクで広く使用されています。

自己教師あり学習の長所

効率： データ・サイエンティストがデータ・ポイントにラベルを付けるのではなく、SSLはタスクをモデルに転送することでラベル付けプロセスを自動化します。
拡張性： SSLは手動でのデータのラベル付けへの依存度が低いため、ラベルのないデータの大規模なプールを使用した拡張に適しています。
ラベリングへの低依存： ラベル付けされたグラウンド・トゥルース・データがまばらな場合、SSLはモデルが生成した理解を通じて不足を補います。
汎用性： 自己教師ありモデルは、多くのドメイン固有のタスクやマルチモーダル・タスクに合わせて微調整できる、移行可能な豊富な主要な機能を学習します。

自己教師あり学習のメリット

大量の計算： ラベルのないデータセットの処理とラベルの生成には、多大な計算能力が必要です。
複雑： 教師あり学習のプリテキスト・タスクを作成するプロセス（初期学習段階）には、高度な専門知識が必要です。
信頼性が低い可能性: 人間の監督を必要としない他の学習手法と同様、成果は、過剰なノイズや暗黙のバイアス、およびモデルの理解に悪影響を与える可能性のあるその他の要因が含まれていないかどうかにかかっています。

教師あり学習と強化学習

強化学習は、ロボットや自動運転車などの自律エージェントが環境との相互作用を通じて意思決定を行えるようにトレーニングします。強化学習はラベル付きデータを使用せず、データセット内の根底にあるパターンを特定することではなく、試行錯誤と報酬によって学習する点で、教師なし学習とは異なります。

強化学習の長所

複雑なタスクの解決： 試行錯誤を重ねたトレーニング・プロセスを通じて、モデルは複雑な戦略的課題に取り組む方法を見つけ出すことができます。
ラベル付けに依存しない： モデルは、インプットとアウトプットの照合を通じて理論的には学習するのではなく、経験的に学習します。
自己修正： モデルは、トレーニング中に問題を抱えた場合に自身の動作を改善します。
適応性：モデルは、新しい情報や、結果があらかじめ定義されていない状況の変化に適応できる。

強化学習のメリット

一貫性のない成果が得られやすい： Trialによる学習は、特にトレーニングを始めたばかりの場合、予定通りで予測不可能に見えることがあります。
環境データの必要性：強化学習では、モデルが行動の結果から学習する必要があり、そのためには大量の環境データが必要となる。ただし、エージェントはシミュレートされた環境でも学習することができます。
報酬ハッキング： モデルは報酬アルゴリズムの抜け穴を利用して、タスクを適切に達成することなく、報酬を生成する可能性があります。
タスクに特化：強化学習は、特定の機能のモデルを訓練するのに優れています。こうしたモデルは、学習内容を新しいタスクに移すことが難しい場合があります。

実社会における教師あり学習のユースケース

教師あり学習モデルでは、以下のようなビジネス・アプリケーションを構築したり、強化することができます。

画像認識と物体認識：教師あり学習アルゴリズムを使用して、動画や画像からオブジェクトを特定、分離、分類できるため、コンピューター・ビジョンや画像分析タスクに役立ちます。

予測分析：教師あり学習モデルは、洞察を提供する予測分析システムを作成します。これにより、企業は出力変数に基づいて成果を予測し、データ駆動型の意思決定を行うことができ、その結果、ビジネス・リーダーは自身の選択の正当性を示したり、組織のメリットに転換したりできるようになります。

回帰を使用すると、医療従事者は患者の基準や過去のデータに基づいて結果を予測することもできます。予測モデルでは、患者の生物学的データやライフスタイル・データに基づいて、特定の病気や状態に対する患者のリスクを評価することができます。

顧客の感情分析：組織は、人間による介入を最小限に抑えながら、文脈、感情、意図などが含まれた大量のデータから重要な情報を抽出・分類できます。感情分析により、顧客とのやり取りをより深く理解し、ブランド・エンゲージメントの取り組みを改善できます。

顧客セグメンテーション：回帰モデルは、さまざまな特徴や過去の傾向に基づいてお客様の行動を予測できます。企業は予測モデルを使用して顧客ベースをセグメント化し、購入者のペルソナを作成することで、マーケティング活動や製品開発を改善できます。

スパム検知：スパム検知は、教師あり学習モデルのもう1つの例です。教師あり分類アルゴリズムを使用して、組織はデータベースをトレーニングし、新しいデータのパターンや異常を認識して、スパムと非スパム関連の対応を効果的に整理できます。

予測：回帰モデルは過去の傾向に基づいた予測に優れているため、金融業界での使用に適しています。企業は回帰を使用して、在庫ニーズを予測し、従業員の給与を推定し、サプライ・チェーンにおいて発生する可能性がある細かな問題を回避することもできます。

レコメンデーション・エンジン：教師あり学習モデルを活用することで、コンテンツ・プロバイダーやオンライン・マーケットプレイスは、顧客の選択、好み、購入を分析し、コンバージョンの可能性を高めるカスタマイズされたレコメンデーションを提供するレコメンデーション・エンジンを構築できます。

教師あり学習の課題

教師あり学習には、データによる深い洞察や自動化の向上などのビジネス上のメリットがありますが、すべての状況において最良の選択であるとは限りません。

人員の限界：教師あり学習モデルは、正確に構造化するためには、ある程度の専門知識が必要となります。

人間の関与：教師あり学習モデルは自己学習ができません。データ・サイエンティストはモデルのパフォーマンスによる出力を検証する必要があります。

時間的要件：トレーニング・データ・セットは大規模で、手作業でラベルを付ける必要があるため、教師あり学習プロセスに時間がかかります。

柔軟性のなさ：教師あり学習モデルは、トレーニング・データセットの範囲外のデータをラベル付けする場合に苦労が伴います。教師なし学習モデルの方が、新しいデータに対応する性能が高い場合もあります。

バイアス：データセットは、人為的なミスやバイアスが発生する可能性が高く、その結果、アルゴリズムが誤って学習してしまうリスクがあります。バイアスは、不均衡なトレーニング・データ・セット、不十分な注釈の適用、またはデータに反映されている過去の不確実性から生じる可能性があります。

過学習：教師あり学習では、過学習（モデルがトレーニング・データセットに過度に適合する状態）が発生する場合があります。トレーニングの精度が高いということは、一般的に性能が高いのではなく、過学習である可能性があります。過学習を回避するには、トレーニング・データとは異なるデータを使用してモデルをテストする必要があります。

IBM X-Force脅威インテリジェンス・インデックス2026

IBM® X-Force脅威インテリジェンス·インデックスを使用することで、より迅速かつ効果的にサイバー攻撃に備え、対応するためのインサイトを得ることができます。

教師あり学習とは

執筆者

教師あり学習とは

グラウンドトゥルースデータとは?

The DX Leaders

ご登録いただきありがとうございます。

教師あり学習の仕組み

教師あり学習の実践例

IBMお客様事例

教師あり学習のタイプ

分類

回帰

アンサンブル学習

教師あり学習アルゴリズム

教師あり学習と他の学習方法の比較

教師あり学習と教師なし学習

教師なし学習の長所

教師なし学習のメリット

教師あり学習と半教師あり学習

半教師あり学習の長所

半教師あり学習のメリット

教師あり学習と自己教師あり学習

自己教師あり学習の長所

自己教師あり学習のメリット

教師あり学習と強化学習

強化学習の長所

強化学習のメリット

実社会における教師あり学習のユースケース

教師あり学習の課題

参考情報