事前学習済みモデルとは、特定のタスク(通常は汎用目的)に対して大規模なデータセットであらかじめトレーニングされ、その後、異なるが関連するタスクに再利用またはファイン・チューニングできる機械学習モデルのことです。事前学習済みモデルは、モデルをゼロからトレーニングする場合と比べて、開発チームの時間、データ、計算リソースを節約できます。
膨大なリソース、インフラストラクチャー、専門知識を必要とするため、事前学習済みモデルは通常、大手テクノロジー企業、学術機関、非営利団体、オープンソース・コミュニティーの組み合わせによって構築されます。ディープラーニングのように数百万のパラメーターを必要とする分野では、事前学習済みモデルが出発点となり、機械学習アプリケーションを構築するたびに「車輪の再発明」を避けることができます。
モデル・トレーニングとは、機械学習モデルに対し、最終的なユースケースに関連するサンプル・タスクのトレーニング・データセットを使って性能を最適化するよう「学習」させることです。このトレーニング・データは、モデルが取り組む実世界の課題に類似している必要があり、モデルはそのデータのパターンや関係性を学習することで、新しいデータに対して正確な予測を行えるようになります。
この学習プロセスには、基盤となる機械学習アルゴリズムを構成する数式内の重みとバイアスなど、モデルのパラメーターを調整することが含まれます。このような調整は、より正確な出力を得ることを目的としています。
数学的に言えば、このプロセスの目的は、モデル出力の誤差を定量化する損失関数を最小化することです。出力が特定のしきい値を下回ると、そのモデルは「トレーニング済み」と見なされます。強化学習では目的が逆になり、損失関数を最小化するのではなく、報酬関数を最大化するようにモデルのパラメーターが最適化されます。
モデル・トレーニングは、データの収集と前処理、トレーニング・データをモデルに投入する工程、損失の測定、パラメーターの最適化、検証データによる性能テストといったサイクルから成ります。このワークフローは、十分に満足できる結果が得られるまで繰り返されます。トレーニングには、学習プロセスに影響を与えるものの自らは「学習」されない構造的な選択肢であるハイパーパラメーターを調整する作業も含まれ、これはハイパーパラメーター・チューニングと呼ばれます。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
事前学習済みモデルの主なメリットは、ゼロから開始するのではなく、言語構造や視覚的形状といった一般的な特徴をすでに学習しているモデルを利用し、より小規模なドメイン固有のデータセットでファイン・チューニングできる点にあります。ファイン・チューニングは、事前学習済みモデルを新しい用途に適応させる手法の総称である転移学習の一種です。
事前学習済みモデルを利用することで、開発を加速できるとともに、十分な計算能力、データ、インフラストラクチャーにアクセスできないスタートアップのような小規模組織でも、最先端モデルを用いた実験が可能になります。それは、既製服を購入し、その人の体型に合わせて仕立て直すようなものです。
事前学習済みモデルを利用することは、すでに実世界のシナリオで検証、ベンチマーク、テストされているアーキテクチャーを活用できることを意味します。これはリスクを低減し、信頼性を確保するのに役立ちます。一般的な事前学習済みモデルには、モデルを個々のプロジェクトに適応させるために利用できる豊富なドキュメント、チュートリアル、コードが付属しています。
事前学習済みの大規模言語モデル(LLM)は、自然言語処理(NLP)のユースケースを推進するために多くの組織で活用されており、質問応答、感情分析、セマンティック・セグメンテーション、生成AIなどに利用されています。この長いLLMの一覧には、最も一般的な選択肢が多数含まれています。他のAIモデルはコンピューター・ビジョンに特化しており、物体検出や画像分類のモデルがあります。
画像ベースのモデルにおける最も初期で影響力の大きいリソースの1つがImageNetであり、コンピューター・ビジョンにおける業界標準のデータセットとなりました。ImageNetでトレーニングされたResNetやInceptionといったアーキテクチャーは、コンピューター・ビジョンのワークフローにおける基盤となっています。これらのモデルは特徴抽出に優れており、新しい画像を分類する際に役立つエッジ、質感、形状を識別します。
事前学習済みモデルをホストするモデル・ハブやライブラリーはいくつも存在します。代表的なものをいくつか挙げます。
PyTorch Hubは、研究の再現性を促進し、事前学習済みモデルをPythonのPyTorchエコシステム内で容易に利用できるように設計された事前学習済みモデルのリポジトリーです。
TensorFlow Hubは、ファイン・チューニング可能であらゆる場所にデプロイできるトレーニング済みモデルのリポジトリーです。BERTモデルやFaster R-CNN(畳み込みニューラル・ネットワーク)は、数行のコードで再利用できます。
Hugging Face ModelsはNLPやビジョンモデルに特化しており、BERTやGPTなどの最先端モデルに加え、推論やトレーニングのためのツールやチュートリアルも提供しています。IBM Graniteの事前学習済みモデル群は、すべてHugging Faceにあります。これらのモデルは、オープンで高性能かつ信頼性があり、ビジネスのユースケース向けに最適化されています。Graniteには、言語、ビジョン、音声、時系列などのアプリケーション向けモデルが含まれています。
Kaggleは、データサイエンスと機械学習のためのプラットフォームであり、コンペティションやデータセットを提供するとともに、協働や学習のためのコミュニティーの場を提供しています。
GitHubは、開発者がコードを作成、保存、管理、共有できるプロプライエタリーな開発者向けプラットフォームです。多くの研究者や企業が、コード、重み、ドキュメントとともに事前学習済みモデルをこのリポジトリーで公開しています。
NVIDIA NGCカタログ は、コンピューター・ビジョン、医用画像、音声AIなど、GPUアクセラレーション向けに最適化された事前学習済みモデルを提供します。
OpenAIモデル は、生成型の事前学習済み Transformerモデル(GPTとも呼ばれる)、例えばChatGPT チャットボット、Codex、DALL-EをAPI経由で提供します。アクセスはクラウド経由で提供され、直接ダウンロードするのではなく、OpenAI APIやAzure OpenAIなどのプラットフォームを通じて利用されます。
KerasHubは、シンプルで柔軟かつ高速を目指した事前学習モデル・ライブラリーで、人気のあるアーキテクチャーをKeras 3で実装しています。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。