モデル・トレーニングとは、モデルの最終的なユースケースに関連するサンプル・タスクのトレーニング用のデータセットでパフォーマンスを最適化するために、機械学習モデルを「教育」するプロセスです。トレーニング・データが、モデルに課される実世界の問題に酷似している場合、そのパターンと相関関係を学習することで、学習済みモデルは新しいデータに対して正確な予測を行うことができるようになります。
トレーニング・プロセスは、基本的な線形回帰アルゴリズムに基づいて組み込まれた予測システムから、生成AIを動かす複雑なニューラル・ネットワークまで、AIモデルのライフサイクルの中で最も重要なステップです。
モデルのトレーニングは、「学習」が行われる機械学習(ML)のステップです。機械学習では、学習にMLモデルのパラメーターの調整が含まれます。これらのパラメーターには、アルゴリズムを構成する数学関数の重みとバイアスが含まれます。この調整の目的は、より正確なアウトプットを生成することです。モデル・トレーニングの成果であるこれらの重みとバイアスの具体的な値は、モデルの「知識」の具体的な表現です。
数学的には、この学習の目標は、トレーニング・タスクにおけるモデル・アウトプットの誤差を定量化する損失関数を最小化することです。損失関数のアウトプットがあらかじめ決められたしきい値を下回る場合、つまりトレーニング・タスクでのモデルのエラーが十分に小さい場合、モデルは「トレーニング済み」とみなされます。強化学習では、目標は逆になります。損失関数を最小化する代わりに、モデルのパラメーターが報酬関数を最大化するように最適化されます。
実際には、モデル・トレーニングには、データのキュレーション、そのトレーニング用データでのモデルの実行、損失の測定、それに応じたパラメーターの最適化、検証データセットでのモデル性能のテストのサイクルが含まれます。このワークフローは、満足のいく成果が得られるまで反復的に進められます。適切なトレーニングには、ハイパーパラメーター調整と呼ばれるプロセスでハイパーパラメーター(学習プロセスに影響を与えるが、それ自体は「学習可能」ではない構造上の選択)の調整も必要になる場合があります。
場合によっては、既にトレーニング済みのモデルを、新しいトレーニング用データでさらに学習することで、より具体的なタスクやドメインに合わせてファイン・チューニングできることがあります。元のスクラッチ・トレーニングとその後のファイン・チューニングはどちらも「トレーニング」ですが、この文脈では(曖昧さをなくすため)、前者は通常「事前トレーニング」と呼ばれます。ファイン・チューニングは転移学習のいくつかの種類のうちの1つであり、転移学習は、事前トレーニング済みのモデルを新しい用途に適応させる機械学習手法の総称です。
人工知能の分野では「モデル」と「アルゴリズム」という言葉がしばしば同じ意味で使われますが、これらは同じものではありません。主な違いは、各用語とモデルトレーニングの関係にあります。
つまり、AIモデルは予測や決定を行うために使用され、アルゴリズムはそのモデルが動作するための数学的ロジックです。2つのモデルは同じ基礎アルゴリズムを使用している可能性がありますが、異なるデータでトレーニングされているため、そのアルゴリズム内の重みとバイアスの値は異なります。
ディープラーニングは機械学習のサブセットであり、そのモデルは、ロジスティック回帰やナイーブ・ベイズなどの明示的に設計されたアルゴリズムではなく、多くの層を持つ(したがって「ディープ」)ニューラル・ネットワークです。2つのディープ・ラーニング・モデルは、標準のオートエンコーダなどの同じ構造を持つ場合がありますが、層の数、層あたりのニューロンの数、または各ニューロンの活性化関数が異なります。
ほとんどの状況では、トレーニングは学習とほぼ同義です。データサイエンティストはトレーニングを行い、モデルは学習します。学習では、結果として得られるモデルのアウトプットが精度や有用性の基準を満たすまで、機械学習アルゴリズムのパラメーターを調整する必要があります。トレーニングには、トレーニング用データの収集と、損失関数の選択、パラメーターの更新レートの設定、ニューラル・ネットワークのアーキテクチャーの変更などのハイパーパラメーターの調整が伴い、学習を促進します。
AIモデルは通常、教師あり学習、教師なし学習、または強化学習という3つの異なる機械学習パラダイムのいずれかに分類されます。各タイプの機械学習には、独自のユースケース、ハイパーパラメーター、アルゴリズム、トレーニング・プロセスがあります。
教師あり学習は、インプットに対して「正しい」アウトプットを予測するようにモデルをトレーニングするときに使用されます。これは、分類や回帰など、外部の「グラウンド・トゥルース」と比較してある程度の精度を必要とするタスクに適用されます。
教師なし学習は、データ内の固有のパターンと相関関係を識別するようにモデルをトレーニングするときに使用されます。教師あり学習とは異なり、教師なし学習では、アウトプットを比較する外部の真実の存在を前提としません。
強化学習は、モデルが環境を評価し、最大の報酬を得られるアクションを実行するようにトレーニングされるときに使用されます。
各機械学習パラダイムの定義と区別は必ずしも正式または絶対的なものではないことに注意する必要があります。例えば、自己教師あり学習(SSL)は、用語の定義のどの側面に重点を置くかによって、教師あり学習と教師なし学習の両方に分類できます。半教師あり学習は、教師なし学習と教師あり学習を組み合わせたものです。
また、単一のAIシステムをトレーニングするために、複数の種類の機械学習が使用される場合もあることにも注目に値します。例えば、チャットボットなどの会話型アプリケーションに使用される大規模言語モデル(LLM)のバージョンでは、通常、自己教師あり事前トレーニングが行われ、その後に教師ありファイン・チューニングが行われ、その後に人間からのフィードバックによる強化学習(RLHF)が行われます。
ディープラーニング・モデルを構成するニューラル・ネットワークのトレーニングの主な形式として、教師あり学習は、今日の最先端のAIモデルのほとんどを支えています。教師あり学習は、分類や回帰など、精度が求められるタスクの主なトレーニング・パラダイムです。
モデルの精度をトレーニングするには、特定のインプットに対するアウトプット予測を、そのインプットに対する「正しい」予測(通常はグラウンド・トゥルースと呼ばれます)と比較する必要があります。従来の教師あり学習では、その真実はラベル付けされたデータ・ペアによって提供されます。例えば、オブジェクト検出モデルのトレーニング用データは、生の画像(インプット)と、画像内の各オブジェクトの位置と分類を示す画像の注釈付きバージョン(アウトプット)をペアにします。
このトレーニング方法では、人間が介入して真実を提供する必要があるため、「教師あり」学習と呼ばれます。しかし、教師あり学習の決定的な特徴は、人間の関与ではなく、何らかのグラウンド・トゥルースの使用と、そこからの逸脱を測定する損失関数の最小化です。この区別は、革新的な新しい学習技術によって、ラベルのないデータから「疑似ラベル」を暗黙的に推測する方法が考案されるにつれて重要になりました。
より汎用性の高い教師あり学習の概念に対応するために、最新のML用語では、グラウンド・トゥルースのあらゆるソースを指すために「教師」または「教師信号」を使用します。自己教師あり学習は、ラベルなしデータを使用するという点で名目上は「教師なし」ですが、教師信号はラベルなしデータ自体の構造から導出されます。例えば、LLMは、元のテキストを真実情報として、テキスト・サンプル内のマスキングされた単語を予測することでSSLを介して事前トレーニングされます。
教師あり学習とは異なり、教師なし学習では「正しい」答えが事前に存在することを前提としていないため、教師信号や従来の損失関数は使用されません。教師なし学習アルゴリズムは、類似性、相関関係、潜在的なグループ化など、ラベル付けされていないデータ内の固有のパターンを発見することを目指しており、そのようなパターンが人間の観察者には必ずしも明らかではない場合に最も役立ちます。
教師なし学習アルゴリズムの主なカテゴリーは次のとおりです。
名前が示すように、教師なし学習アルゴリズムは、広義では「自分自身を最適化する」ものとして理解できます。例えば、ユタ大学のAndrey Shabalin博士によるこのアニメーションでは、K平均法クラスタリング・アルゴリズムが各クラスターの重心を反復的に最適化する方法が示されています。
そのため、教師なし学習アルゴリズムを使用するAIモデルのトレーニングは、通常、ハイパーパラメーターの調整の問題になります。例えば、クラスタリング・アルゴリズムでは、理想的なクラスターの数()は必ずしも明らかではなく、最適な結果を得るには手動での実験が必要になる場合があります。
教師あり学習では、モデルを理想的な見本と一致するように最適化してトレーニングし、教師なし学習アルゴリズムではデータセットに自ら適合させますが、強化学習モデルは試行錯誤を通じて全体的にトレーニングされます。強化問題には、単一の「正しい」答えは含まれません。代わりに、「良い」決定と「悪い」(あるいは中立的な)決定が含まれます。
強化学習(RL)は、教師あり学習で使用される独立したインプット・データとアウトプット・データのペアではなく、相互依存する状態-アクション-報酬データ・タプルで動作します。強化学習の数学的フレームワークは、主に以下のコンポーネントに基づいて組み込まれます。
RLアルゴリズムの目標は、最大の報酬を生み出すポリシーを最適化することです。深層強化学習では、ポリシーはニューラル・ネットワークとして表され、そのパラメーターは継続的に更新されて、損失関数を最小化するのではなく、報酬関数を最大化します。
モデル開発ライフサイクルは複数のプロセスで構成され、その一部は満足のいく結果が得られるまで反復的に周期的に繰り返されます。
強化学習、教師あり学習、教師なし学習にはそれぞれそのパラダイムに固有のトレーニング要素がありますが、モデルをトレーニングするために必要な一般的なワークフローは次の手順で構成されます。
適切なアルゴリズム(またはニューラル・ネットワーク・アーキテクチャー)を選択することは、解決する必要のある問題とモデルが処理するデータの種類だけに依存するものではありません。理想的なモデルのタイプは、速度と効率を精度とパフォーマンスよりも優先するかどうか(またはその逆)、および予算と利用可能なハードウェアまたはコンピューティング・リソースによっても異なります。例えば、LLMのトレーニングやファイン・チューニングには、多くの場合、複数の画像処理装置(GPU)が必要になります。
ユースケースに適した高品質のトレーニング用データを取得することは簡単ではありません。特に、十分なトレーニングのために数千、場合によっては数百万の例が必要になることが多いディープラーニング・モデルであればなおさらです。独自のデータ・パイプラインはカスタマイズと競争上の優位性を実現する独自の機会を提供しますが、ほとんどのドメインとタスクで利用できる信頼できるオープンソースのデータセットがあります。一部の分野、特に自然言語処理(NLP)では、合成データを生成することがますます現実的な選択肢になりつつあります。
トレーニングに使用する未加工データ(特に直接収集された場合や複数のデータ・ソースから照合された場合)には通常、データのクリーニング、値の正規化、フォーマットの標準化などの前処理が必要です。このプロセスの一部またはすべてを自動化するサービスは数多く存在します。例えば、重要な構造要素を保持しながら PDF やその他のファイル形式を機械が読み取りやすいテキストに変換するオープンソース・ツールであるDoclingなどがあります。
教師あり学習では、データにラベルを付け、場合によっては詳細な注釈を付ける必要がある。例えば、画像セグメンテーション・モデルのトレーニングに使用する画像は、ピクセル・レベルまでラベル付けする必要があります。このラベル付けには多大な時間と労力がかかる可能性があり、その両方をスケジュールと予算に考慮する必要があります。
アルゴリズムやモデル・アーキテクチャーを選択した後でも、選択すべきことが他にもあります。従来のMLアルゴリズムは、ほとんどの場合、万能ではなく、ニューラル・ネットワークはさらに標準化されていません。適切なハイパーパラメーター(パラメーター最適化の外部にあるアルゴリズムのモジュール要素)を選択することは、効率的で成功するトレーニングに不可欠です。
トレーニングがうまく進まない場合、または教師なし学習アルゴリズムや決定木などのノンパラメトリック教師あり学習アルゴリズムを使用している場合は、ハイパーパラメーターの調整によってモデルのパフォーマンスをファイン・チューニングし、強化することができます。最適な学習率、バッチ・サイズ、損失関数(および正規化項)、または最適化アルゴリズムに到達するには、ある程度の試行錯誤が必要になる場合があります。
そのようなパラメーターの1つは、学習可能なパラメーターの初期化です。通常はランダム化されますが、パラメーターのランダム化にも複数の戦略があります。最適な初期パラメーターは、メタ学習と呼ばれる手法を通じて「学習」することもできます。
初期パラメーターとハイパーパラメーターが設定された後、モデルはトレーニング用データセットから抽出された一連のインプット・データ例を処理します。初期パラメーターはランダムであるため、モデルは通常、まだ「よい」アウトプットを生成しません。最初のトレーニング実行の目的は、最適化するためのベースラインを確立することだけです。バッチ・サイズ(損失を計算してパラメーターを最適化する前に各「バッチ」で処理される例の数)自体が重要なハイパーパラメーターです。
PyTorch、Keras、TensorFlowなど、トレーニング用の機械学習モデルを構成および実行するためのオープンソース・フレームワークは多数あります。ほとんどはPythonまたはJavaScriptで動作し、コミュニティー主導のプロジェクトであるため、初心者向けの広範なチュートリアル・コンテンツ・ライブラリーを提供しています。
モデルがトレーニング例を処理する際、選択した損失関数はモデルのアウトプットと各インプットの「正しい」更新との間の不一致を追跡します。ディープラーニングでは、モデルは互いにネストされたさまざまな方程式で構成されるニューラル・ネットワークであり、バック・プロパゲーションを使用して、ニューラル・ネットワークの各ノードが全体の損失にどのように寄与するかを計算します。
教師あり学習では、トレーニングの正式な目標は通常、その損失関数を最小化することです。変分オートエンコーダ(VAE)などの一部のモデル・アーキテクチャーでは、代わりに損失関数のプロキシーを最大化するという観点から問題を再定式化します。RLアルゴリズムは通常、報酬関数を最大化することを目指しますが、望ましくない動作にペナルティーを課す正規化項を同時に最小化しようとする場合もあります。
MLアルゴリズムの最適化は通常、別のアルゴリズムによって実行されます。数学において、最適化アルゴリズムは、その関数内の変数の最適値を決定することによって、他の関数(この場合は損失関数または報酬関数)を最小化または最大化するように設計されています。MLでは、これらの変数はアルゴリズム内、またはニューラル・ネットワークの異なるノード間の重みとバイアスです。
理想的な最適化アルゴリズムは、トレーニングされるモデルの種類によって異なります。多くのMLアルゴリズム、特にニューラル・ネットワーク・ベースのモデルでは、勾配降下法のバリエーションが使用されます。サポート・ベクトル・マシン(SVM)などの二次関数を使用する特定のアルゴリズムでは、二次計画法の方が適している場合があります。線形回帰アルゴリズムは通常、最小二乗法アルゴリズムを通じて最適化されます。強化学習には、Proximal Policy Optimization(PPO)、Direct Policy Optimization(DPO)、Advantage Actor Critic(A2C)などの独自の最適化アルゴリズムがあります。
この一連のトレーニング手順(ハイパーパラメーターの調整、トレーニング用データのバッチでのモデルの実行、損失の計算、パラメーターの最適化)は、損失が十分に最小化されるまで複数回繰り返されます。
トレーニング用データでの優れたパフォーマンスは、それ自体では、モデルが正常にトレーニングされ、本番環境での導入に向けて準備が整っていることの決定的な証拠にはなりません。過剰適合を避けるように注意する必要があります。過剰適合とは、モデルがトレーニング用データを基本的に記憶しているものの、新しいデータにうまく一般化できない(そのため、トレーニングの目的が達成されない)ことです。過剰適合は、機械学習における「テストに向けた指導」に相当するものとして理解されます。
過剰適合を回避するための標準的な方法は、クロス検証と呼ばれるプロセスでトレーニング用データセットの一部を取っておくことです。このプロセスにより、モデルをこれまで見たことのない新しいデータでテストし、適切にトレーニングされていることを確認できます。
2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
今すぐ個人またはマルチ・ユーザーのサブスクリプションを購入すると、100を超えるオンライン・コースの完全なカタログにアクセスして、低価格でさまざまな製品のスキルを向上させることができます。
IBMのエキスパートが主催するこのカリキュラムは、ビジネス・リーダーが成長を促進するAI投資に優先順位を付けるために必要な知識を習得できます。
AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。
生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。
強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。