モデル・トレーニングとは

モデル・トレーニングとは、モデルの最終的なユースケースに関連するサンプル・タスクのトレーニング用のデータセットでパフォーマンスを最適化するために、機械学習モデルを「教育」するプロセスです。トレーニング・データが、モデルに課される実世界の問題に酷似している場合、そのパターンと相関関係を学習することで、学習済みモデルは新しいデータに対して正確な予測を行うことができるようになります。

トレーニング・プロセスは、基本的な線形回帰アルゴリズムに基づいて組み込まれた予測システムから、生成AIを動かす複雑なニューラル・ネットワークまで、AIモデルのライフサイクルの中で最も重要なステップです。

モデルのトレーニングは、「学習」が行われる機械学習（ML）のステップです。機械学習では、学習にMLモデルのパラメーターの調整が含まれます。これらのパラメーターには、アルゴリズムを構成する数学関数の重みとバイアスが含まれます。この調整の目的は、より正確なアウトプットを生成することです。モデル・トレーニングの成果であるこれらの重みとバイアスの具体的な値は、モデルの「知識」の具体的な表現です。

数学的には、この学習の目標は、トレーニング・タスクにおけるモデル・アウトプットの誤差を定量化する損失関数を最小化することです。損失関数のアウトプットがあらかじめ決められたしきい値を下回る場合、つまりトレーニング・タスクでのモデルのエラーが十分に小さい場合、モデルは「トレーニング済み」とみなされます。強化学習では、目標は逆になります。損失関数を最小化する代わりに、モデルのパラメーターが報酬関数を最大化するように最適化されます。

実際には、モデル・トレーニングには、データのキュレーション、そのトレーニング用データでのモデルの実行、損失の測定、それに応じたパラメーターの最適化、検証データセットでのモデル性能のテストのサイクルが含まれます。このワークフローは、満足のいく成果が得られるまで反復的に進められます。適切なトレーニングには、ハイパーパラメーター調整と呼ばれるプロセスでハイパーパラメーター（学習プロセスに影響を与えるが、それ自体は「学習可能」ではない構造上の選択）の調整も必要になる場合があります。

場合によっては、既にトレーニング済みのモデルを、新しいトレーニング用データでさらに学習することで、より具体的なタスクやドメインに合わせてファイン・チューニングできることがあります。元のスクラッチ・トレーニングとその後のファイン・チューニングはどちらも「トレーニング」ですが、この文脈では（曖昧さをなくすため）、前者は通常「事前トレーニング」と呼ばれます。ファイン・チューニングは転移学習のいくつかの種類のうちの1つであり、転移学習は、事前トレーニング済みのモデルを新しい用途に適応させる機械学習手法の総称です。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

モデルとアルゴリズムの比較

人工知能の分野では「モデル」と「アルゴリズム」という言葉がしばしば同じ意味で使われますが、これらは同じものではありません。主な違いは、各用語とモデルトレーニングの関係にあります。

アルゴリズム は、通常、数学的な言語または疑似コードで記述される手順であり、提供されたインプットに基づいて予測を出力したり決定を下したりするために使用されます。
モデルは、特定のトレーニング用データセットでのパフォーマンスを向上させるためにアルゴリズムのパラメーターを最適化するプロセスの結果であり、その後、それらのトレーニング例に類似した新しいデータでのパフォーマンスが向上します。データサイエンスの用語では、このプロセスはデータセットに対するアルゴリズムの「適合」と呼ばれます。

つまり、AIモデルは予測や決定を行うために使用され、アルゴリズムはそのモデルが動作するための数学的ロジックです。2つのモデルは同じ基礎アルゴリズムを使用している可能性がありますが、異なるデータでトレーニングされているため、そのアルゴリズム内の重みとバイアスの値は異なります。

ディープラーニングは機械学習のサブセットであり、そのモデルは、ロジスティック回帰やナイーブ・ベイズなどの明示的に設計されたアルゴリズムではなく、多くの層を持つ（したがって「ディープ」）ニューラル・ネットワークです。2つのディープ・ラーニング・モデルは、標準のオートエンコーダなどの同じ構造を持つ場合がありますが、層の数、層あたりのニューロンの数、または各ニューロンの活性化関数が異なります。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

モデル・トレーニンググループの

ほとんどの状況では、トレーニングは学習とほぼ同義です。データサイエンティストはトレーニングを行い、モデルは学習します。学習では、結果として得られるモデルのアウトプットが精度や有用性の基準を満たすまで、機械学習アルゴリズムのパラメーターを調整する必要があります。トレーニングには、トレーニング用データの収集と、損失関数の選択、パラメーターの更新レートの設定、ニューラル・ネットワークのアーキテクチャーの変更などのハイパーパラメーターの調整が伴い、学習を促進します。

AIモデルは通常、教師あり学習、教師なし学習、または強化学習という3つの異なる機械学習パラダイムのいずれかに分類されます。各タイプの機械学習には、独自のユースケース、ハイパーパラメーター、アルゴリズム、トレーニング・プロセスがあります。

教師あり学習は、インプットに対して「正しい」アウトプットを予測するようにモデルをトレーニングするときに使用されます。これは、分類や回帰など、外部の「グラウンド・トゥルース」と比較してある程度の精度を必要とするタスクに適用されます。

教師なし学習は、データ内の固有のパターンと相関関係を識別するようにモデルをトレーニングするときに使用されます。教師あり学習とは異なり、教師なし学習では、アウトプットを比較する外部の真実の存在を前提としません。

強化学習は、モデルが環境を評価し、最大の報酬を得られるアクションを実行するようにトレーニングされるときに使用されます。

各機械学習パラダイムの定義と区別は必ずしも正式または絶対的なものではないことに注意する必要があります。例えば、自己教師あり学習（SSL）は、用語の定義のどの側面に重点を置くかによって、教師あり学習と教師なし学習の両方に分類できます。半教師あり学習は、教師なし学習と教師あり学習を組み合わせたものです。

また、単一のAIシステムをトレーニングするために、複数の種類の機械学習が使用される場合もあることにも注目に値します。例えば、チャットボットなどの会話型アプリケーションに使用される大規模言語モデル（LLM）のバージョンでは、通常、自己教師あり事前トレーニングが行われ、その後に教師ありファイン・チューニングが行われ、その後に人間からのフィードバックによる強化学習（RLHF）が行われます。

教師あり学習

ディープラーニング・モデルを構成するニューラル・ネットワークのトレーニングの主な形式として、教師あり学習は、今日の最先端のAIモデルのほとんどを支えています。教師あり学習は、分類や回帰など、精度が求められるタスクの主なトレーニング・パラダイムです。

モデルの精度をトレーニングするには、特定のインプットに対するアウトプット予測を、そのインプットに対する「正しい」予測（通常はグラウンド・トゥルースと呼ばれます）と比較する必要があります。従来の教師あり学習では、その真実はラベル付けされたデータ・ペアによって提供されます。例えば、オブジェクト検出モデルのトレーニング用データは、生の画像（インプット）と、画像内の各オブジェクトの位置と分類を示す画像の注釈付きバージョン（アウトプット）をペアにします。

このトレーニング方法では、人間が介入して真実を提供する必要があるため、「教師あり」学習と呼ばれます。しかし、教師あり学習の決定的な特徴は、人間の関与ではなく、何らかのグラウンド・トゥルースの使用と、そこからの逸脱を測定する損失関数の最小化です。この区別は、革新的な新しい学習技術によって、ラベルのないデータから「疑似ラベル」を暗黙的に推測する方法が考案されるにつれて重要になりました。

より汎用性の高い教師あり学習の概念に対応するために、最新のML用語では、グラウンド・トゥルースのあらゆるソースを指すために「教師」または「教師信号」を使用します。自己教師あり学習は、ラベルなしデータを使用するという点で名目上は「教師なし」ですが、教師信号はラベルなしデータ自体の構造から導出されます。例えば、LLMは、元のテキストを真実情報として、テキスト・サンプル内のマスキングされた単語を予測することでSSLを介して事前トレーニングされます。

教師なし学習

教師あり学習とは異なり、教師なし学習では「正しい」答えが事前に存在することを前提としていないため、教師信号や従来の損失関数は使用されません。教師なし学習アルゴリズムは、類似性、相関関係、潜在的なグループ化など、ラベル付けされていないデータ内の固有のパターンを発見することを目指しており、そのようなパターンが人間の観察者には必ずしも明らかではない場合に最も役立ちます。

教師なし学習アルゴリズムの主なカテゴリーは次のとおりです。

クラスタリング・アルゴリズムは、ラベルのないデータ・ポイントを、互いの近接性または類似性に基づいて「クラスター」またはグループに分割します。例えば、一般的なクラスタリング・アルゴリズムであるK平均法クラスタリングは、市場セグメンテーションで、類似した属性を持つ顧客を $k$ 種類。
関連付けアルゴリズムは、特定のアクションと特定の条件の間などの相関関係を識別します。例えば、Amazonなどの電子商取引ビジネスでは、教師なしの関連付けモデルを使用して推奨エンジンを強化しています。
次元削減アルゴリズムは、意味のある特性を維持しながら、データをより少ない数の特徴で表現する、つまりより少ない次元で表現することにより、データの複雑さを軽減するように設計されています。データ圧縮、データ視覚化、機能エンジニアリングなど、さまざまなユースケースがあります。

名前が示すように、教師なし学習アルゴリズムは、広義では「自分自身を最適化する」ものとして理解できます。例えば、ユタ大学のAndrey Shabalin博士によるこのアニメーションでは、K平均法クラスタリング・アルゴリズムが各クラスターの重心を反復的に最適化する方法が示されています。

そのため、教師なし学習アルゴリズムを使用するAIモデルのトレーニングは、通常、ハイパーパラメーターの調整の問題になります。例えば、クラスタリング・アルゴリズムでは、理想的なクラスターの数（ $k$ ）は必ずしも明らかではなく、最適な結果を得るには手動での実験が必要になる場合があります。

強化学習

教師あり学習では、モデルを理想的な見本と一致するように最適化してトレーニングし、教師なし学習アルゴリズムではデータセットに自ら適合させますが、強化学習モデルは試行錯誤を通じて全体的にトレーニングされます。強化問題には、単一の「正しい」答えは含まれません。代わりに、「良い」決定と「悪い」（あるいは中立的な）決定が含まれます。

強化学習（RL）は、教師あり学習で使用される独立したインプット・データとアウトプット・データのペアではなく、相互依存する状態-アクション-報酬データ・タプルで動作します。強化学習の数学的フレームワークは、主に以下のコンポーネントに基づいて組み込まれます。

状態空間には、モデルが行う可能性のある決定に関連する利用可能なすべての情報が含まれます。通常、モデルが実行するアクションごとに変化します。
アクション・スペースには、モデルが現時点で実行できるすべての決定が含まれます。ボードゲームでは、アクション・スペースはその時点で実行可能なすべての合法的な動きで構成されます。テキスト生成では、アクション空間はLLMで利用可能なトークンの「語彙」全体で構成されます。
報酬関数は、各アクションの結果としてモデルに提供する正（または負）のフィードバックを報酬信号（そのフィードバックのスカラー定量化）として決定します。例えば、チェス・プログラムをRLでトレーニングする場合、報酬関数によって、勝利の確率を高める動きが奨励され、勝利の可能性を低下させる動きが奨励されなくなる可能性があります。自動運転車を訓練する場合、報酬関数によって、法律に違反したり安全の可能性を低下させるような操作を抑制することができます。
ポリシーは、RLエージェントの動作を駆動する「思考プロセス」です。数学的に言えば、ポリシー（ $π$ ）は状態（ $s$ ）をインプットとして受け取り、アクション（ $a$ ）を返す関数です。 $π (s) \to a$ .

RLアルゴリズムの目標は、最大の報酬を生み出すポリシーを最適化することです。深層強化学習では、ポリシーはニューラル・ネットワークとして表され、そのパラメーターは継続的に更新されて、損失関数を最小化するのではなく、報酬関数を最大化します。

機械学習モデルをトレーニングする方法

モデル開発ライフサイクルは複数のプロセスで構成され、その一部は満足のいく結果が得られるまで反復的に周期的に繰り返されます。

強化学習、教師あり学習、教師なし学習にはそれぞれそのパラダイムに固有のトレーニング要素がありますが、モデルをトレーニングするために必要な一般的なワークフローは次の手順で構成されます。

モデルの選択
データ収集
データ準備
ハイパーパラメータの選択
トレーニング・データのパフォーマンス
損失（または報酬）の計算
パラメータの最適化
モデル評価

モデル選択

適切なアルゴリズム（またはニューラル・ネットワーク・アーキテクチャー）を選択することは、解決する必要のある問題とモデルが処理するデータの種類だけに依存するものではありません。理想的なモデルのタイプは、速度と効率を精度とパフォーマンスよりも優先するかどうか（またはその逆）、および予算と利用可能なハードウェアまたはコンピューティング・リソースによっても異なります。例えば、LLMのトレーニングやファイン・チューニングには、多くの場合、複数の画像処理装置（GPU）が必要になります。

データ収集

ユースケースに適した高品質のトレーニング用データを取得することは簡単ではありません。特に、十分なトレーニングのために数千、場合によっては数百万の例が必要になることが多いディープラーニング・モデルであればなおさらです。独自のデータ・パイプラインはカスタマイズと競争上の優位性を実現する独自の機会を提供しますが、ほとんどのドメインとタスクで利用できる信頼できるオープンソースのデータセットがあります。一部の分野、特に自然言語処理（NLP）では、合成データを生成することがますます現実的な選択肢になりつつあります。

データ準備

トレーニングに使用する未加工データ（特に直接収集された場合や複数のデータ・ソースから照合された場合）には通常、データのクリーニング、値の正規化、フォーマットの標準化などの前処理が必要です。このプロセスの一部またはすべてを自動化するサービスは数多く存在します。例えば、重要な構造要素を保持しながら PDF やその他のファイル形式を機械が読み取りやすいテキストに変換するオープンソース・ツールであるDoclingなどがあります。

教師あり学習では、データにラベルを付け、場合によっては詳細な注釈を付ける必要がある。例えば、画像セグメンテーション・モデルのトレーニングに使用する画像は、ピクセル・レベルまでラベル付けする必要があります。このラベル付けには多大な時間と労力がかかる可能性があり、その両方をスケジュールと予算に考慮する必要があります。

ハイパーパラメーターの選択

アルゴリズムやモデル・アーキテクチャーを選択した後でも、選択すべきことが他にもあります。従来のMLアルゴリズムは、ほとんどの場合、万能ではなく、ニューラル・ネットワークはさらに標準化されていません。適切なハイパーパラメーター（パラメーター最適化の外部にあるアルゴリズムのモジュール要素）を選択することは、効率的で成功するトレーニングに不可欠です。

トレーニングがうまく進まない場合、または教師なし学習アルゴリズムや決定木などのノンパラメトリック教師あり学習アルゴリズムを使用している場合は、ハイパーパラメーターの調整によってモデルのパフォーマンスをファイン・チューニングし、強化することができます。最適な学習率、バッチ・サイズ、損失関数（および正規化項）、または最適化アルゴリズムに到達するには、ある程度の試行錯誤が必要になる場合があります。

そのようなパラメーターの1つは、学習可能なパラメーターの初期化です。通常はランダム化されますが、パラメーターのランダム化にも複数の戦略があります。最適な初期パラメーターは、メタ学習と呼ばれる手法を通じて「学習」することもできます。

トレーニング用データでのパフォーマンス

初期パラメーターとハイパーパラメーターが設定された後、モデルはトレーニング用データセットから抽出された一連のインプット・データ例を処理します。初期パラメーターはランダムであるため、モデルは通常、まだ「よい」アウトプットを生成しません。最初のトレーニング実行の目的は、最適化するためのベースラインを確立することだけです。バッチ・サイズ（損失を計算してパラメーターを最適化する前に各「バッチ」で処理される例の数）自体が重要なハイパーパラメーターです。

PyTorch、Keras、TensorFlowなど、トレーニング用の機械学習モデルを構成および実行するためのオープンソース・フレームワークは多数あります。ほとんどはPythonまたはJavaScriptで動作し、コミュニティー主導のプロジェクトであるため、初心者向けの広範なチュートリアル・コンテンツ・ライブラリーを提供しています。

損失（または報酬）の計算

モデルがトレーニング例を処理する際、選択した損失関数はモデルのアウトプットと各インプットの「正しい」更新との間の不一致を追跡します。ディープラーニングでは、モデルは互いにネストされたさまざまな方程式で構成されるニューラル・ネットワークであり、バック・プロパゲーションを使用して、ニューラル・ネットワークの各ノードが全体の損失にどのように寄与するかを計算します。

教師あり学習では、トレーニングの正式な目標は通常、その損失関数を最小化することです。変分オートエンコーダ（VAE）などの一部のモデル・アーキテクチャーでは、代わりに損失関数のプロキシーを最大化するという観点から問題を再定式化します。RLアルゴリズムは通常、報酬関数を最大化することを目指しますが、望ましくない動作にペナルティーを課す正規化項を同時に最小化しようとする場合もあります。

パラメーターの最適化

MLアルゴリズムの最適化は通常、別のアルゴリズムによって実行されます。数学において、最適化アルゴリズムは、その関数内の変数の最適値を決定することによって、他の関数（この場合は損失関数または報酬関数）を最小化または最大化するように設計されています。MLでは、これらの変数はアルゴリズム内、またはニューラル・ネットワークの異なるノード間の重みとバイアスです。

理想的な最適化アルゴリズムは、トレーニングされるモデルの種類によって異なります。多くのMLアルゴリズム、特にニューラル・ネットワーク・ベースのモデルでは、勾配降下法のバリエーションが使用されます。サポート・ベクトル・マシン（SVM）などの二次関数を使用する特定のアルゴリズムでは、二次計画法の方が適している場合があります。線形回帰アルゴリズムは通常、最小二乗法アルゴリズムを通じて最適化されます。強化学習には、Proximal Policy Optimization（PPO）、Direct Policy Optimization（DPO）、Advantage Actor Critic（A2C）などの独自の最適化アルゴリズムがあります。

この一連のトレーニング手順（ハイパーパラメーターの調整、トレーニング用データのバッチでのモデルの実行、損失の計算、パラメーターの最適化）は、損失が十分に最小化されるまで複数回繰り返されます。

モデルの評価

トレーニング用データでの優れたパフォーマンスは、それ自体では、モデルが正常にトレーニングされ、本番環境での導入に向けて準備が整っていることの決定的な証拠にはなりません。過剰適合を避けるように注意する必要があります。過剰適合とは、モデルがトレーニング用データを基本的に記憶しているものの、新しいデータにうまく一般化できない（そのため、トレーニングの目的が達成されない）ことです。過剰適合は、機械学習における「テストに向けた指導」に相当するものとして理解されます。

過剰適合を回避するための標準的な方法は、クロス検証と呼ばれるプロセスでトレーニング用データセットの一部を取っておくことです。このプロセスにより、モデルをこれまで見たことのない新しいデータでテストし、適切にトレーニングされていることを確認できます。