ラベル付きデータは、正しい出力または回答と共に、例となるデータ・ポイントで構成されています。入力データが機械学習アルゴリズムに投入されると、モデルが適切に適合するまで、その重み付けが調整されます。ラベル付けされたトレーニング・データは、機能とデータ・ラベルの間の関係を識別するようにモデルに明示的に学習させます。
教師あり機械学習は、スパムの分類や株価の予測など、組織が実際に直面するさまざまな問題を、大規模に解決する上で役立ちます。これは、精度の高い機械学習モデルを構築するために使用できます。
教師あり学習では、ラベル付きトレーニング・データセットを使用して、入力データと出力データの関係を理解します。データ・サイエンティストは、入力データと対応するラベルを含むデータセットを手作業で作成します。教師あり学習では、現実世界のユースケースで新しい入力データに正しい出力を適用するモデルをトレーニングします。
トレーニング中、モデルのアルゴリズムは大規模なデータセットを処理して、入力と出力の間の潜在的な相関関係を調査します。次に、モデルの性能がテスト・データで評価され、モデルのトレーニングが成功したかどうかが分かります。交差検証は、データセットの異なる部分を使用してモデルをテストするプロセスです。
確率的勾配降下法(SGD)を含む勾配降下法ファミリーのアルゴリズムは、ニューラル・ネットワークやその他の機械学習モデルをトレーニングするときに最も一般的に使用される最適化アルゴリズム、または学習アルゴリズムです。モデルの最適化アルゴリズムは、損失関数(モデルの予測値と実際の値の間の差異を測定する方程式)を通じて精度を評価します。
損失関数の傾き(勾配)は、モデルの性能を示す主要なメトリクスです。最適化アルゴリズムは、その値を最小化するために勾配を下降させます。トレーニング全体を通じて、最適化アルゴリズムはモデルのパラメーター、つまり動作ルールや「設定」を更新し、モデルを最適化します。
一般的な教師あり学習プロセスは、次のようになります。
教師あり学習の例として、車両の画像を認識し、それらがどの種類の車両であるかを判断する画像分類モデルを考えてみましょう。このようなモデルは、多くのWebサイトがスパムボットを検出するために使用するCAPTCHAテストを強化できます。
このモデルをトレーニングするために、データ・サイエンティストは、多数の車両の例と対応する車両タイプ(自動車、オートバイ、トラック、自転車など)を含むラベル付きのトレーニング・データセットを作成します。モデルのアルゴリズムは、入力(車両画像)が出力(車両タイプ)を受け取るようになる学習データのパターンを識別しようとします。
モデルの推測は、テスト・セット内の実際のデータ値に対して測定され、正確な予測が行われたかどうかを判断します。予測が正確ではない場合、モデルのパフォーマンスが満足のいく正確性レベルに達するまで、トレーニング・サイクルは継続されます。一般化の原則とは、トレーニング・データと同じ分布を持つ新しいデータに対して、適切な予測を行うモデルの能力を指します。
教師あり学習タスクは、分類問題と回帰問題に大きく分類できます。
機械学習における分類では、アルゴリズムを使用してデータをカテゴリーに分類します。データセット内の特定のエンティティーを認識し、それらのエンティティーがどのようにラベル付けされるべきか、または定義されるべきかを決定しようと試みます。一般的な分類アルゴリズムには、線形分類器、サポート・ベクター・マシン(SVM)、決定木、k近傍法アルゴリズム、およびランダム・フォレストなどがあります。
ニューラル・ネットワークは、複雑な分類問題の処理に優れています。ニューラル・ネットワークは、人間の脳を模倣したノードの層を使用してトレーニング・データを処理するディープ・ラーニング・アーキテクチャです。各ノードは、入力、重み、(しきい値に対する)バイアスと出力で構成されます。出力値が事前に設定されたしきい値を超えると、ノードが「起動」またはアクティブ化され、ネットワーク内の次のレイヤーにデータが渡されます。
勾配降下法などの最適化アルゴリズムは、教師あり学習タスクに優れた幅広い機械学習アルゴリズムをトレーニングします。
単純ベイズ:単純ベイズは、ベイズの定理におけるクラスの条件付き独立の原則を採用した分類アルゴリズムです。つまり、ある特徴があっても、ある結果が出る確率において、別の特徴の存在には影響を与えず、各予測変数がその結果に同等の影響を及ぼすというものです。
単純ベイズ分類器には、多項式、ベルヌーイ、ガウス単純ベイズなどがあります。この技術は、多くの場合、テキスト分類、スパム識別、推奨システムに使用されます。
線形回帰:線形回帰は、連続型の従属変数と1つ以上の独立変数の間の関係を識別するために使用されます。通常、将来の結果を予測するために使用されます。
線形回帰は、変数間の関係を直線で表します。独立変数と従属変数がそれぞれ1つだけある場合、単純線形回帰と呼ばれます。独立変数の数が増えると、この手法は多重線形回帰と呼ばれます。
非線形回帰:出力が線形入力から再現できないことがあります。このような場合、出力は非線形関数でモデル化されなければなりません。非線形回帰は、変数間の関係を非線形または曲線で表します。非線形モデルは、多くのパラメータを持つ複雑な関係を扱うことができます。
ロジスティック回帰: ロジスティック回帰は、真または偽、正または負などのバイナリー出力を持つ場合に、カテゴリー従属変数を処理します。線形回帰モデルやロジスティック回帰モデルは、データ入力間の関係性を理解しようとしますが、ロジスティック回帰は主に、スパム識別などのバイナリー分類問題を解決します。
多項回帰:他の回帰モデルと同様、多項回帰はグラフ上の変数間の関係をモデル化します。多項回帰で使用される関数は、この関係を指数関数的に表現します。多項回帰は、非線形回帰のサブセットです。
サポート・ベクター・マシン(SVM):サポート・ベクター・マシンは、データの分類と回帰の両方に使用されます。そうではあるものの、通常は分類の問題を処理します。ここで、SVMは決定境界または超平面を使用してデータ・ポイントのクラスを分離します。SVMアルゴリズムの目標は、データ・ポイントのグループ間の距離を最大化する超平面をプロットすることです。
K最近傍:K最近傍(KNN) は、他の利用可能なデータへの近接性と関連性に基づいてデータ・ポイントを分類するノンパラメトリックなアルゴリズムです。このアルゴリズムは、数学的にプロットすると、類似したデータ・ポイントが互いに近くに見つかることを前提としています。
使いやすく計算時間が短いため、推奨エンジンや画像認識に使用すると効率的です。しかし、テスト・データセットが増えるにつれて処理時間が長くなるため、分類タスクにおいては魅力的なものではありません。
ランダム・フォレスト:ランダム・フォレストは、分類と回帰の両方の目的に使用される、柔軟な教師あり機械学習アルゴリズムです。「フォレスト」とは、ばらつきを減らして精度を高めるために統合された、相関性のないディシジョン・ツリーのコレクションを指します。
教師あり学習は、機械学習モデルをトレーニングするための唯一の学習方法ではありません。その他の種類の機械学習には、次のようなものがあります。
教師なし学習
半教師あり学習
自己教師あり学習
強化学習
教師あり学習と教師なし学習の違いは、教師なし機械学習はラベル付けされていないデータを使用することです。モデルはデータ内のパターンと関係性を独自に発見することになります。多くの生成AIモデルは、最初は教師なし学習でトレーニングされ、その後、ドメインの専門知識を高めるために教師あり学習でトレーニングされます。
教師なし学習は、データセット内の共通の特性が不確実なクラスタリングまたは関連付けの問題を解決するのに役立ちます。一般的なクラスタリング・アルゴリズムには、階層的手法、k平均法、ガウス混合モデルがあります。
半教師あり学習では、入力データの一部にラベルを付けます。教師あり学習用のデータに適切なラベルを付けるため、その分野の専門知識に依拠するには多くの時間と費用がかかる可能性があるため、半教師あり学習は魅力的な代替手段となります。
自己教師あり学習(SSL)は、ラベルのないデータを使用した教師あり学習を模倣します。教師あり学習データセットの手動で作成されたラベルを使用するのではなく、SSLタスクは、モデルが非構造化データから暗黙的なラベルを生成できるように構成されています。次に、モデルの損失関数は、実際のラベルの代わりにこれらのラベルを使用して、モデルの性能を評価します。
自己教師あり学習は、ラベル付けのために途方もなく高額なコストおよび多大な時間を要する大規模なデータセットを必要とする、コンピューター・ビジョンや自然言語処理(NLP)タスクで広く使用されています。
強化学習は、ロボットや自動運転車などの自律エージェントが環境との相互作用を通じて意思決定を行えるようにトレーニングします。強化学習はラベル付きデータを使用せず、データセット内の根底にあるパターンを特定することではなく、試行錯誤と報酬によって学習する点で、教師なし学習とは異なります。
教師あり学習モデルでは、以下のようなビジネス・アプリケーションを構築したり、強化することができます。
画像認識と物体認識:教師あり学習アルゴリズムを使用して、動画や画像からオブジェクトを特定、分離、分類できるため、コンピューター・ビジョンや画像分析タスクに役立ちます。
予測分析:教師あり学習モデルは、洞察を提供する予測分析システムを作成します。これにより、企業は出力変数に基づいて成果を予測し、データ駆動型の意思決定を行うことができ、その結果、ビジネス・リーダーは自身の選択の正当性を示したり、組織のメリットに転換したりできるようになります。
回帰を使用すると、医療従事者は患者の基準や過去のデータに基づいて結果を予測することもできます。予測モデルでは、患者の生物学的データやライフスタイル・データに基づいて、特定の病気や状態に対する患者のリスクを評価することができます。
顧客の感情分析:組織は、人間による介入を最小限に抑えながら、文脈、感情、意図などが含まれた大量のデータから重要な情報を抽出・分類できます。感情分析により、顧客とのやり取りをより深く理解し、ブランド・エンゲージメントの取り組みを改善できます。
顧客セグメンテーション:回帰モデルは、さまざまな特徴や過去の傾向に基づいてお客様の行動を予測できます。企業は予測モデルを使用して顧客ベースをセグメント化し、購入者のペルソナを作成することで、マーケティング活動や製品開発を改善できます。
スパム検知:スパム検知は、教師あり学習モデルのもう1つの例です。教師あり分類アルゴリズムを使用して、組織はデータベースをトレーニングし、新しいデータのパターンや異常を認識して、スパムと非スパム関連の対応を効果的に整理できます。
予測:回帰モデルは過去の傾向に基づいた予測に優れているため、金融業界での使用に適しています。企業は回帰を使用して、在庫ニーズを予測し、従業員の給与を推定し、サプライ・チェーンにおいて発生する可能性がある細かな問題を回避することもできます。
レコメンデーション・エンジン:教師あり学習モデルを活用することで、コンテンツ・プロバイダーやオンライン・マーケットプレイスは、顧客の選択、好み、購入を分析し、コンバージョンの可能性を高めるカスタマイズされたレコメンデーションを提供するレコメンデーション・エンジンを構築できます。
教師あり学習には、データによる深い洞察や自動化の向上などのビジネス上のメリットがありますが、すべての状況において最良の選択であるとは限りません。
人員の限界:教師あり学習モデルは、正確に構造化するためには、ある程度の専門知識が必要となります。
人間の関与:教師あり学習モデルは自己学習ができません。データ・サイエンティストはモデルのパフォーマンスによる出力を検証する必要があります。
時間的要件:トレーニング・データ・セットは大規模で、手作業でラベルを付ける必要があるため、教師あり学習プロセスに時間がかかります。
柔軟性のなさ:教師あり学習モデルは、トレーニング・データセットの範囲外のデータをラベル付けする場合に苦労が伴います。教師なし学習モデルの方が、新しいデータに対応する性能が高い場合もあります。
バイアス:データセットは、人為的なミスやバイアスが発生する可能性が高く、その結果、アルゴリズムが誤って学習してしまうリスクがあります。
過学習:教師あり学習では、過学習(モデルがトレーニング・データセットに過度に適合する状態)が発生する場合があります。トレーニングの精度が高いということは、一般的に性能が高いのではなく、過学習である可能性があります。過学習を回避するには、トレーニング・データとは異なるデータを使用してモデルをテストする必要があります。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。