Google Gemmaとは?

2024年11月8日

共同執筆者

Google Gemmaとは?

Gemmaは、Googleの無料でオープンな小規模言語モデル(SLM)ファミリーです。大規模言語モデル(LLM)Geminiファミリーと同じテクノロジーを使用して構築されており、Geminiの「軽量」バージョンと見なされています。

Geminiモデルよりも無駄を省いた設計のGemmaモデルは、ノートPCやモバイル・デバイスにデプロイできる一方、NVIDIAのGraphics Processing Units(GPU)やGoogle Cloud Tensor Processing Units(TPU)に対しても最適化されています。しかし、Geminiとは異なり、Gemmaは多言語でもマルチモーダルでもありません。

どちらのテキスト読み上げ人工知能(AI)モデルも、その名前は「宝石」を意味する同じラテン語の言葉に由来しています。Gemmaはオープン・モデル・グループであり、Googleはこのモデルの重みを無料で提供しています。またこれらモデルは個人用および商用目的に自由に利用して再配布することができます。1

Gemmaの初代モデルは2024年2月1、第2世代モデルは2024年6月に発表されました。2

Gemmaモデル・ファミリー

GemmaのAIモデルのコレクションには、GemmaとGemma 2が中核に据えられているほか、特定のタスクをサポートしそれらタスクに合わせて最適化された異なるアーキテクチャーを持つより特化したモデルがいくつか含まれています。Gemmaラインのモデルには、ベースのバリアントまたは事前トレーニング済みバリアントと、命令チューニング済みバリアントがあります。

Gemma

Gemmaは、第一世代のGemmaモデルです。Gemma 2Bはパラメーターが20億と最小であるのに対し、Gemma 7Bは70億のパラメーターを持っています。これらのモデルは、コードと数学データ・セットに加え、Webドキュメントからの主に英語のコンテンツでトレーニングされました。3

Gemma 2

Gemma 2は、Gemmaファミリーの2世代目です。Googleによると、Gemma 2は以前のものと比較して、AI推論時(モデルがユーザーのクエリーに対する応答を生成する際)に性能と効率性がより高くなっています。2

このモデルでは、20億、90億、270億のパラメーター・サイズが用意されています。トレーニング・データ・セットには、英語のWebドキュメント、コード、科学関連記事などが含まれます。4

CodeGemma

テキストをコードに変換するこのモデルは、コーディングのタスク用にファイン・チューニングされており、C++、C#、Go、Java、JavaScript、Kotlin、Python、Rustなど、複数のプログラミング言語をサポートしています。5

CodeGemmaには、コード補完とコード生成のための7B事前トレーニング済みバリアント、自然言語コード・チャットと指示追従用の7B命令チューニング済みバリアント、迅速なコード補完用の2B事前トレーニング済みバリアントがあります。5

DataGemma

DataGemmaは、ファイン・チューニングされたGemmaとGemma 2のモデルで構成され、Googleの公開統計データのリポジトリであるData Commonsからのデータで応答を補足します。DataGemma RIGモデルは、Data Commonsからデータを取得するための自然言語クエリーを作成するために、検索インターリーブ生成を適用します。一方、DataGemma RAGモデルは、DataCommonsからデータを取得するために、モデルのプロンプトを補強することができる検索拡張生成を採用しています。6

PaliGemma

このビジョン言語モデルは、画像とテキストの両方をインプットとして受け入れ、テキストをアウトプットとして生成します。そのため、画像に関する質問への回答、画像内のオブジェクトの検出、画像キャプションの生成、画像に埋め込まれたテキストの読み取りに最適です。その基盤となるアーキテクチャーは、ビジョン・トランスフォーマー・イメージ・エンコーダーと、Gemma 2Bで初期化されたトランスフォーマー・テキスト・デコーダーで構成されています。7

PaliGemmaには、汎用の事前トレーニング済みモデル・セットと、特定の研究データ・セットに基づいてファイン・チューニングされた研究指向のモデル・セットがあります。Google社は、ほとんどのPaliGemmaモデルはファイン・チューニングが必要であり、ユーザーへのデプロイメント前にアウトプットをテストする必要があると指摘しています。8

RecurrentGemma

RecurrentGemmaは、Googleの研究者によって開発されたリカレント・ニューラル・ネットワーク・アーキテクチャーを使用しています。そのため、特に長いシーケンスを生成する場合に推論が迅速に行えるようになり、必要なメモリーがGemmaよりも少なくなります。これには、2Bと9Bの事前トレーニング済みモデルおよび命令チューニング済みモデルが用意されています。 9

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

Gemmaのユースケース

CodeGemmaとPaliGemmaにはそれぞれ独自のユースケースがあります。しかし一般的には、次のような自然言語処理(NLP)や自然言語理解のタスクにGemmaを使用することができます。

  • 対話型AIアシスタントチャットボットの構築
  • 編集と校正
  • 質問への回答と調査
  • Eメール、広告コピー、その他のコンテンツなどのテキスト生成
  • 特に長文の文書や膨大な量の報告書、研究論文などのテキスト要約

Google Gemmaの仕組み

Gemmaは、2017年にGoogleから生まれたニューラル・ネットワークのアーキテクチャーであるTransformerモデルに基づいています。10

Transformerモデルがどのように機能するかを以下に簡単に説明します。

  • エンコーダーは、インプットシーケンスを、そのシーケンス内のトークンの意味と位置を取得する「埋め込み」と呼ばれる数値表現に変換します。

  • Transformerは自己注意メカニズムにより、トークンの位置とは無関係に、インプットシーケンス内の最も重要なトークンに「注意を集中させる」ことができます。

  • デコーダーは、この自己注意メカニズムとエンコーダーによる埋め込みを使用して、統計的に最も確率の高いアウトプット・シーケンスを生成します。

ただし、GemmaではTransformerアーキテクチャーのバリエーションを使用しています。11 このモデルでは、インプット・シーケンスがデコーダーに直接供給され、デコーダーが埋め込みと注意機構を使用してアウトプット・シーケンスを生成します。

Gemmaモデル・アーキテクチャー

Gemmaの第一世代モデルは、次のようないくつかのアーキテクチャー要素を通じてTransformerへの改良を加えています。

  • ニューラル・ネットワークの各レイヤーは、絶対位置埋め込みではなく回転位置埋め込みを適用します。また、アウトプットとインプット間で共有され、モデルを圧縮します。3

  • Gemma 7Bはマルチヘッド注意メカニズムを採用しており、トークンの間のさまざまな異なる関係を捉えられるよう、複数の「注意ヘッド」が独自のキーと値を保有しています。一方、Gemma 2Bはマルチクエリー注意メカニズムを採用しており、すべての注意ヘッドが単一のキーと値のセットを共有することで速度を向上させ、メモリーの負荷を軽減しています11

Gemma 2モデルのアーキテクチャー

Gemma 2は、Gemmaよりも深層のニューラル・ネットワークを使用します。その他のアーキテクチャー面での注目すべき違いは次のとおりです。4

  • Gemma 2は、ニューラル・ネットワークの各層ごとに、ローカルなスライド・ウィンドウによる注意とグローバルな注意を切り替えます。ローカルなスライド・ウィンドウによる注意は、インプットシーケンスのうちサイズの固定された特定の「ウィンドウ」に焦点を当てる動的なメカニズムで、これによりモデルは一度に数個の単語のみに集中します。一方、グローバルな注意はシーケンス内のすべてのトークンを注意の対象とします。

  • さらにGemma 2はグループ化クエリー注意も採用しています。これはクエリーを複数の小さなグループに分割し、各グループ内の注意を個別に計算する分割統治アプローチです。

  • また、Gemma 2、2B、9Bモデルは知識蒸留を適用しています。これは大規模なモデルの知識を小規模なモデルへと「蒸留」する手法で、大規模なモデルの推論プロセスをエミュレートし、その予測と一致するように小規模なモデルを訓練します。

指示チューニング

モデルが指示に適切に従うように準備する命令チューニングに関しては、GemmaとGemma 2はいずれも、教師ありファイン・チューニングと人間のフィードバックからの強化学習(RLHF)を適用しています。4教師ありファイン・チューニングでは、命令指向タスクのラベル付き例を使用して、応答を構成する方法をモデルに教えます。一方、RLHFは報酬モデルを使用して人間の評価者による品質評価を数値的な報酬信号に変換し、どの応答が肯定的なフィードバックを獲得するかをモデルが学習できるようにします。

Gemmaの性能

LLMベンチマークにおけるコード生成、常識推論、言語理解、数学的推論、質疑応答にわたるGemma 7Bのパフォーマンス評価では、Llama 3 8BやMistral 7Bなどの同様の規模のSLMに匹敵することが示されています。Gemma 2 9Bと27Bはさらに優れたパフォーマンスを発揮し、ほとんどのベンチマークでLlama 3 8BとMistral 7Bの両方を上回りました。12

しかし、MetaとMistralの最新のSLMであるLlama 3.2 3BとMinistral 3Bは、それぞれ複数のベンチマークでGemma 2 2Bを上回っています。13 Microsoftの38億パラメーターの言語モデルであるPhi-3-miniも、Gemma 7Bよりも高いパフォーマンスを発揮しました。14

Gemmaにアクセスする方法

Gemmaモデルには、次のプラットフォームからアクセスできます。

  • Google AI Studio

  • Hugging Face(Hugging Face Transformersにも統合)

  • Kaggle

  • Vertex AI Model Garden

また、開発者は、JAX、LangChain、PyTorch、TensorFlowなどのオープンソースの機械学習フレームワークや、Keras 3.0などのアプリケーション・プログラミング・インターフェース(API)を通じて、モデルを実装することができます。さらに、GemmaにはNVIDIA GPU全体の最適化が含まれているため、開発者はモデルをファイン・チューニングするためのNeMoフレームワークやTensorRT-LLMなどのNVIDIAツールを使用して、モデルを最適化し、NVIDIA GPUでの効率的な推論を行うことができます。

エンタープライズAI開発の場合、GemmaモデルはGoogle Cloud Vertex AI およびGoogle Kubernetes Engine(GKE)にデプロイできます。コンピューティング能力が限られている場合、Google ColabはGPUやTPUなどのコンピューティング・リソースへの無料のクラウド・アクセスを提供します。

Gemmaのリスク

他のAIモデルと同様に、Google Gemmaは次のようなAIのリスクに引き続き取り組んでいます。

  • バイアス:小規模なモデルは、大規模なモデルに存在するバイアスから学習する可能性があり、このドミノ効果が結果に影響を与えるおそれがあります。

  • ハルシネーション:GemmaのようなSLMのアウトプットの検証と監視は、生成内容の正確性と事実としての正しさ確保する上で不可欠です。

  • プライバシー侵害:Google社は、GemmaとGemma 2のトレーニング・データ・セットはフィルタリングされており、特定の個人情報やその他の機密データは削除されていると述べています4。それでも、個人情報や占有データの漏えいを避けるため、個人ユーザーや企業はGemmaのファイン・チューニングに使用するデータを注意して扱わなければなりません。

安全性とセキュリティーに関して、Googleは、攻撃的サイバーセキュリティー、CBRN(化学 (Chemical)・生物 (Biological)・放射性物質 (Radiological)・核 (Nuclear))の知識、自己拡散(自律的に複製する能力)、説得力など、いくつかのメトリクスに基づいてGemmaを評価しました。CBRNドメインに関するGemmaの知識は低く、同様にこのモデルは、攻撃的なサイバーセキュリティー、自己拡散、説得力においても低い機能となっています。4

Googleはまた、AI研究者や開発者が責任ある安全なAIアプリケーションを構築できるように、責任ある生成AIツールキットもリリースしました。1

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

脚注

すべてのリンク先は、ibm.comの外部にあります。

1 Gemma: Introducing new state-of-the-art open models、Google社、2024年2月21日

2 Gemma 2 is now available to researchers and developers、Google社、2024年6月27日

3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind社、2024年2月21日

4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind社、2024年6月27日

5 CodeGemma model card、Google AI for developers、2024年8月5日

6 Knowing When to Ask — Bridging Large Language Models and Data、arXiv社、2024年9月10日

7 PaliGemma model card、GoogleAI for developers、2024年8月5日

8 PaliGemma、Google AI for developers、2024年8月5日

9 RecurrentGemma model card、Google AI for developers、2024年8月5日

10 Transformer: A Novel Neural Network Architecture for Language Understanding、Google Research社、2017年8月31日

11 Gemma explained: An overview of Gemma model family architectures、Google for Developers、2024年8月15日

12 Gemma Open Models、Google AI for Developers、アクセス日:2024年11月5日

13 Un Ministral, des Ministraux、Mistral AI、2024年10日16日

14 Introducing Phi-3: Redefining what’s possible with SLMs、Microsoft社、2024年4月23日

関連ソリューション
基盤モデル

watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。

watsonx.aiの詳細はこちら AIソリューションはこちら