基盤モデルとは

基盤モデルとは

基盤モデルは、膨大なデータセットでトレーニングされたAIモデルであり、幅広い一般的なタスクを実行できます。これらは、より特殊なアプリケーションを作成するためのベースまたは構成要素として機能します。

これらの柔軟性と大規模なサイズは、物体検知やトレンド予測などの特定のタスクを実行するために小規模なデータセットでトレーニングされる従来の機械学習モデルとは一線を画しています。一方、基盤モデルでは転移学習を採用し、あるタスクから学習した知識を別のタスクに適用します。これにより、コンピューター・ビジョン自然言語処理(NLP)音声認識など、より広範な領域に適合できるようになります。

スタンフォード大学基盤モデル研究センターおよび人間中心人工知能研究所の研究者は、2021年の論文で「基盤モデル」という用語を作りました。彼らは、これらのモデルを「パラダイム・シフト」であると特徴付け、その名前の背後にある理由を次のように説明しています。「基盤モデル自体は不完全ですが、適応を通じて多くのタスク固有のモデルが構築される共通の基盤として機能します。また、アーキテクチャーの安定性、安全性、セキュリティーの重要性を暗示するために「基礎」という用語を選びました。適切に構築されていない基盤は災害を引き起こす要因であり、適切に実行された基盤は将来のアプリケーションの信頼できる基盤となります。」 1

基盤モデルの仕組み

基盤モデルの構築には、多くの場合、従来の機械学習モデルの開発と同様に、次のような一連の手順が含まれます。

  1. データ収集
  2. モダリティーの選択
  3. モデル・アーキテクチャーの定義
  4. トレーニング
  5. 評価版

1. データ収集

最初のステップは、多様なソースからの膨大なデータ・コーパスを照合することです。このラベル付けされていない非構造化データの包括的なスペクトルにより、基盤モデルはパターンを推測し、関係を認識し、コンテキストを識別し、知識を一般化することができます。

2. モダリティーの選択

モダリティーとは、オーディオ、画像、ソフトウェア・コード、テキスト、ビデオなど、モデルが処理できるデータのタイプを指します。基盤モデルは、ユニモーダルまたはマルチモーダルのいずれかになります。ユニモーダル・モデルは、テキストのインプットを受信し、テキストのアウトプットを生成するなど、単一の種類のデータを処理するように設計されています。マルチモーダル・モデルでは、テキスト・プロンプトを取得して画像を作成したり、音声録音から書面によるトランスクリプトを作成したりするなど、複数のモダリティーからの情報を組み合わせることができます。

3. モデルアーキテクチャーの定義

多くの基盤モデルは、多層のニューラル・ネットワーク使用して人間の脳の意思決定プロセスを模倣するディープラーニング・アーキテクチャーを採用しています。

トランスフォーマー・モデルと呼ばれるディープラーニング・モデルの一種は、基盤モデル、特にNLP用モデルである生成事前トレーニング済みトランスフォーマー(GPT)モデル・ラインに最適なアーキテクチャーです。Transformerアーキテクチャーの概要は次のとおりです。

  • エンコーダーは、インプットシーケンスを、そのシーケンス内のトークンの意味と位置を取得する「埋め込み」と呼ばれる数値表現に変換します。

  • Transformerは自己注意メカニズムにより、トークンの位置とは無関係に、インプットシーケンス内の最も重要なトークンに「注意を集中させる」ことができます。

  • デコーダーは、この自己注意メカニズムとエンコーダーによる埋め込みを使用して、統計的に最も確率の高いアウトプット・シーケンスを生成します。

拡散モデルは、基盤モデルに実装される別のアーキテクチャーです。拡散ベースのニューラル・ネットワークは、トレーニングデータをランダム・ノイズで徐々に「拡散」し、その拡散プロセスを逆に学習して元のデータを再構築します。拡散モデルは、主にGoogle社のImagen、OpenAI社のDALL-E(DALL-E 2以降)、Stability AI社のStable Diffusionなどのテキストから画像への変換の基盤モデルで使用されます。

4. トレーニング

トレーニングには通常、自己教師学習が伴い、基盤モデルはラベルのないデータの固有の相関関係を学習します。したがって、トレーニングは複数回の反復にわたって行われ、モデルの重みは予測エラーを最小限に抑えるように調整され、ハイパーパラメータはトレーニングに最適な構成変数を見つけるように調整されます正規化手法は、過剰適合(モデルがトレーニング・データに近すぎる、または完全に適合している場合)を修正し、基盤モデルの一般化能力を向上させるためにも適用できます。

5. 評価

基盤モデルの性能は、標準化されたベンチマークを使用して検証できます。アセスメントの結果は、さらなる改善や性能の最適化に役立つ情報を提供できます。

基盤モデルの適応

基盤モデルをゼロから開発することは、コストがかかり、計算量が多く、時間のかかるプロセスになる可能性があります。そのため、企業は既存の基盤モデルを特定のニーズに合わせて適応させることを検討できます。これらのモデルには、アプリケーション・プログラミング・インターフェース(API)を介して、またはモデルのローカル・コピーを使用してアクセスできます。

適応への一般的なアプローチを2つ紹介します。

ファイン・チューニング

ファイン・チューニング中に、事前トレーニング済みの基盤モデルは、その一般的な知識を特定のタスクに適応させます。これには、ラベル付けされた例を含む、より小規模でドメイン固有またはタスク固有のデータセットに対する教師あり学習を使用したさらなるトレーニングが含まれます。モデルのパラメーターが更新され、タスクの性能が最適化されます。

ファイン・チューニングによってモデルのパラメーターが変更されるため、モデルが他のタスクでどのように実行するかに影響を与える可能性があります。ラベル付きデータセットの作成も面倒なプロセスです。

プロンプト

この方法では、基盤モデルを特定のタスクに合わせて調整するプロンプトを提供する必要があります。プロンプトは、モデルをガイドするタスク関連の指示またはタスク関連の例の形式で提供され、モデルがコンテキストを取得して妥当なアウトプットを生成できるようにします。これは、コンテキスト内学習と呼ばれる機能です。

プロンプトではモデルのトレーニングやパラメーターの変更は必要ありませんが、モデルがコンテキストを理解し、適合予測を行うための条件となる適切なプロンプトを取得するには、数回の試行が必要になる場合があります。

基盤モデルのユースケース

基盤モデルの適応性と汎用性により、現実世界のさまざまなアプリケーションに実装できます。

  • コンピューター・ビジョン

  • 自然言語処理

  • ヘルスケア

  • ロボティクス

  • ソフトウェアのコード生成

コンピューター・ビジョン

基盤モデルは、画像の生成と分類、オブジェクトの検知、識別、記述に使用できます。DALL-E、Imagen、Stable Diffusionは、テキストから画像への基盤モデルの例です。

自然言語処理

大規模言語モデル(LLM)は、NLPと自然言語理解(NLU)に優れた基盤モデルの一種です。その機能には、質問応答、テキスト要約、文字起こし、翻訳、動画字幕などが含まれます。

NLP分野でよく使われている基盤モデルは次のとおりです。

  • BERT(Bidirectional Encoder Representations from Transformer)は、最初の基盤モデルの1つでした。2018年にGoogle社によってリリースされたこのオープンソースAIシステムは、平文コーパスのみでトレーニングされました。2

  • BLOOMは、46の言語でトレーニングされたオープン・アクセスの多言語言語モデルです。これは、Hugging FaceとAI研究者コミュニティBigScienceとの間の共同的取り組みの成果です。3

  • Claudeは、高度な推論と多言語処理機能を備えたAnthropic社の基盤モデル・ファミリーです。

  • OpenAI社の基盤モデルであるGPTは、同社の生成AIチャットボットであるChatGPTのバックボーンです。GPT-3.5はChatGPTの無料バージョン向けに使用され、GPT-4はプレミアムバージョン向けに使用されています。GPT-4シリーズは、Microsoft社のCopilot AIアシスタントをサポートする生成AIモデルでもあります。

  • Graniteは、デコーダーのみのTransformerアーキテクチャーに基づくIBMのLLM基盤モデルの主力シリーズです。Granite 13bチャット・モデルは、ユースケース向けに最適化されており、バーチャル・アシスタントやアプリで適切に機能します。一方、Graniteの多言語モデルは、英語、ドイツ語、スペイン語、フランス語、ポルトガル語のテキストを理解して生成するようにトレーニングされています。

  • PaLM 2は、強化された多言語機能と推論機能を備えたGoogle社の次世代言語モデルです。

医療

医療分野では、基盤モデルがさまざまなタスクに役立ちます。患者の訪問記録の要約の作成や医学文献の検索から、患者の質問への回答、患者と臨床試験のマッチング、創薬の促進まで。たとえば、Med-PaLM 2言語モデルは、医学的な質問に答えることができ、Google社は、医療画像から情報を合成できるマルチモーダル・バージョンを設計しています。4

ロボティクス

ロボティクスの分野では、基盤モデルはロボットが新しい環境に迅速に適応し、さまざまなタスク、シナリオ、機械の実施例にわたり一般化するのに役立ちます。例えば、PaLM-Eに組み込まれたマルチモーダル言語モデルは、PaLMの言語および視覚領域から知識をロボティクスシステムに転送し、ロボット・センサー・データに基づいてトレーニングされます。5

ソフトウェアのコード生成

基盤モデルは、さまざまなプログラミング言語でのコードの完成、デバッグ、説明、生成を支援します。これらのテキストからコードへの基盤モデルには、Anthropic社のClaude、Google社のCodey、PaLM 2 、および116のプログラミング言語でトレーニングされたIBMのGranite Codeモデル・ファミリーが含まれます。

こうした選択肢が多い中、組織はどのようにしてAI開発に適した基盤モデルを選択できるでしょうか。6ステップのAIモデル選択フレームワークをご紹介します。

基盤モデルの利点

基盤モデルの構築は、企業の自動化とイノベーションにつながります。基盤モデルによって企業が得られるその他の利点は次のとおりです。

価値実現までの時間と規模拡大までの時間を短縮:既存のモデルを採用することで、開発と事前トレーニングのフェーズが不要になり、企業はファイン・チューニングされたモデルを迅速にカスタマイズしてデプロイできるようになります。

データへのアクセス:組織は、取得手段がない可能性のある大量のデータを事前トレーニングのために収集する必要はありません。

ベースラインの精度と性能:基盤モデルは精度と性能についてすでに評価されており、質の高い出発点を提供します。

コストの削減:企業は、基盤モデルをゼロから構築するために必要なリソースに費やす必要がなくなります。

基盤モデルの課題

他のAIモデルと同様に、基盤モデルも依然としてAI のリスクと闘っています。社内ワークフローや商用AIアプリケーションを支えるテクノロジーとして基盤モデルを検討している企業にとって、これは留意すべき要素です。

バイアスモデルはトレーニング・データ内に存在する人間のバイアスから学習する可能性があり、そのバイアスはファイン・チューニングされたモデルのアウトプットにまで影響する可能性があります。

計算コスト:既存の基盤モデルを使用する場合でも、ファイン・チューニング、デプロイ、保守を行うために、大量のメモリ、GPU(グラフィックス・プロセッシング・ユニット)などの高度なハードウェア、その他の計算リソースが必要になります。

データ・プライバシーと知的財産:基盤モデルは、所有者の同意や知識なしに取得されたデータでトレーニングされる場合があります。アルゴリズムにデータを供給する際には、他者の著作権を侵害したり、個人を特定できる情報や独自のビジネス情報を公開したりしないよう注意してください。

環境コスト:大規模な基盤モデルのトレーニングと運用には、炭素排出量と水消費量の増加につながるエネルギー大量の計算が含まれます。

ハルシネーションAI基盤モデルの結果を検証することは、事実上正しい出力が生成されていることを確認するために不可欠です。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

関連ソリューション
基盤モデル

watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。

watsonx.aiの詳細はこちら AIソリューションはこちら
脚注

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 November 2018

3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 July 2022

4 Med-PaLM, Google Research, Accessed 8 October 2024

5 PaLM-E: An embodied multimodal language model, Google Research, 10 March 2023