Gemmaは、Googleの無料でオープンな小規模言語モデル(SLM)ファミリーです。大規模言語モデル(LLM)のGeminiファミリーと同じテクノロジーを使用して構築されており、Geminiの「軽量」バージョンと見なされています。
Geminiモデルよりも無駄を省いた設計のGemmaモデルは、ノートPCやモバイル・デバイスにデプロイできる一方、NVIDIAのGraphics Processing Units(GPU)やGoogle Cloud Tensor Processing Units(TPU)に対しても最適化されています。しかし、Geminiとは異なり、Gemmaは多言語でもマルチモーダルでもありません。
どちらのテキスト読み上げ人工知能(AI)モデルも、その名前は「宝石」を意味する同じラテン語の言葉に由来しています。Gemmaはオープン・モデル・グループであり、Googleはこのモデルの重みを無料で提供しています。またこれらモデルは個人用および商用目的に自由に利用して再配布することができます。1
Gemmaの初代モデルは2024年2月1、第2世代モデルは2024年6月に発表されました。2
GemmaのAIモデルのコレクションには、GemmaとGemma 2が中核に据えられているほか、特定のタスクをサポートしそれらタスクに合わせて最適化された異なるアーキテクチャーを持つより特化したモデルがいくつか含まれています。Gemmaラインのモデルには、ベースのバリアントまたは事前トレーニング済みバリアントと、命令チューニング済みバリアントがあります。
Gemmaは、第一世代のGemmaモデルです。Gemma 2Bはパラメーターが20億と最小であるのに対し、Gemma 7Bは70億のパラメーターを持っています。これらのモデルは、コードと数学データ・セットに加え、Webドキュメントからの主に英語のコンテンツでトレーニングされました。3
テキストをコードに変換するこのモデルは、コーディングのタスク用にファイン・チューニングされており、C++、C#、Go、Java、JavaScript、Kotlin、Python、Rustなど、複数のプログラミング言語をサポートしています。5
CodeGemmaには、コード補完とコード生成のための7B事前トレーニング済みバリアント、自然言語コード・チャットと指示追従用の7B命令チューニング済みバリアント、迅速なコード補完用の2B事前トレーニング済みバリアントがあります。5
このビジョン言語モデルは、画像とテキストの両方をインプットとして受け入れ、テキストをアウトプットとして生成します。そのため、画像に関する質問への回答、画像内のオブジェクトの検出、画像キャプションの生成、画像に埋め込まれたテキストの読み取りに最適です。その基盤となるアーキテクチャーは、ビジョン・トランスフォーマー・イメージ・エンコーダーと、Gemma 2Bで初期化されたトランスフォーマー・テキスト・デコーダーで構成されています。7
PaliGemmaには、汎用の事前トレーニング済みモデル・セットと、特定の研究データ・セットに基づいてファイン・チューニングされた研究指向のモデル・セットがあります。Google社は、ほとんどのPaliGemmaモデルはファイン・チューニングが必要であり、ユーザーへのデプロイメント前にアウトプットをテストする必要があると指摘しています。8
RecurrentGemmaは、Googleの研究者によって開発されたリカレント・ニューラル・ネットワーク・アーキテクチャーを使用しています。そのため、特に長いシーケンスを生成する場合に推論が迅速に行えるようになり、必要なメモリーがGemmaよりも少なくなります。これには、2Bと9Bの事前トレーニング済みモデルおよび命令チューニング済みモデルが用意されています。 9
CodeGemmaとPaliGemmaにはそれぞれ独自のユースケースがあります。しかし一般的には、次のような自然言語処理(NLP)や自然言語理解のタスクにGemmaを使用することができます。
Gemmaは、2017年にGoogleから生まれたニューラル・ネットワークのアーキテクチャーであるTransformerモデルに基づいています。10
Transformerモデルがどのように機能するかを以下に簡単に説明します。
エンコーダーは、インプットシーケンスを、そのシーケンス内のトークンの意味と位置を取得する「埋め込み」と呼ばれる数値表現に変換します。
Transformerは自己注意メカニズムにより、トークンの位置とは無関係に、インプットシーケンス内の最も重要なトークンに「注意を集中させる」ことができます。
デコーダーは、この自己注意メカニズムとエンコーダーによる埋め込みを使用して、統計的に最も確率の高いアウトプット・シーケンスを生成します。
ただし、GemmaではTransformerアーキテクチャーのバリエーションを使用しています。11 このモデルでは、インプット・シーケンスがデコーダーに直接供給され、デコーダーが埋め込みと注意機構を使用してアウトプット・シーケンスを生成します。
Gemmaの第一世代モデルは、次のようないくつかのアーキテクチャー要素を通じてTransformerへの改良を加えています。
ニューラル・ネットワークの各レイヤーは、絶対位置埋め込みではなく回転位置埋め込みを適用します。また、アウトプットとインプット間で共有され、モデルを圧縮します。3
Gemma 7Bはマルチヘッド注意メカニズムを採用しており、トークンの間のさまざまな異なる関係を捉えられるよう、複数の「注意ヘッド」が独自のキーと値を保有しています。一方、Gemma 2Bはマルチクエリー注意メカニズムを採用しており、すべての注意ヘッドが単一のキーと値のセットを共有することで速度を向上させ、メモリーの負荷を軽減しています11。
Gemma 2は、Gemmaよりも深層のニューラル・ネットワークを使用します。その他のアーキテクチャー面での注目すべき違いは次のとおりです。4
Gemma 2は、ニューラル・ネットワークの各層ごとに、ローカルなスライド・ウィンドウによる注意とグローバルな注意を切り替えます。ローカルなスライド・ウィンドウによる注意は、インプットシーケンスのうちサイズの固定された特定の「ウィンドウ」に焦点を当てる動的なメカニズムで、これによりモデルは一度に数個の単語のみに集中します。一方、グローバルな注意はシーケンス内のすべてのトークンを注意の対象とします。
さらにGemma 2はグループ化クエリー注意も採用しています。これはクエリーを複数の小さなグループに分割し、各グループ内の注意を個別に計算する分割統治アプローチです。
また、Gemma 2、2B、9Bモデルは知識蒸留を適用しています。これは大規模なモデルの知識を小規模なモデルへと「蒸留」する手法で、大規模なモデルの推論プロセスをエミュレートし、その予測と一致するように小規模なモデルを訓練します。
モデルが指示に適切に従うように準備する命令チューニングに関しては、GemmaとGemma 2はいずれも、教師ありファイン・チューニングと人間のフィードバックからの強化学習(RLHF)を適用しています。4教師ありファイン・チューニングでは、命令指向タスクのラベル付き例を使用して、応答を構成する方法をモデルに教えます。一方、RLHFは報酬モデルを使用して人間の評価者による品質評価を数値的な報酬信号に変換し、どの応答が肯定的なフィードバックを獲得するかをモデルが学習できるようにします。
LLMベンチマークにおけるコード生成、常識推論、言語理解、数学的推論、質疑応答にわたるGemma 7Bのパフォーマンス評価では、Llama 3 8BやMistral 7Bなどの同様の規模のSLMに匹敵することが示されています。Gemma 2 9Bと27Bはさらに優れたパフォーマンスを発揮し、ほとんどのベンチマークでLlama 3 8BとMistral 7Bの両方を上回りました。12
しかし、MetaとMistralの最新のSLMであるLlama 3.2 3BとMinistral 3Bは、それぞれ複数のベンチマークでGemma 2 2Bを上回っています。13 Microsoftの38億パラメーターの言語モデルであるPhi-3-miniも、Gemma 7Bよりも高いパフォーマンスを発揮しました。14
Gemmaモデルには、次のプラットフォームからアクセスできます。
Google AI Studio
Hugging Face(Hugging Face Transformersにも統合)
Kaggle
Vertex AI Model Garden
また、開発者は、JAX、LangChain、PyTorch、TensorFlowなどのオープンソースの機械学習フレームワークや、Keras 3.0などのアプリケーション・プログラミング・インターフェース(API)を通じて、モデルを実装することができます。さらに、GemmaにはNVIDIA GPU全体の最適化が含まれているため、開発者はモデルをファイン・チューニングするためのNeMoフレームワークやTensorRT-LLMなどのNVIDIAツールを使用して、モデルを最適化し、NVIDIA GPUでの効率的な推論を行うことができます。
エンタープライズAI開発の場合、GemmaモデルはGoogle Cloud Vertex AI およびGoogle Kubernetes Engine(GKE)にデプロイできます。コンピューティング能力が限られている場合、Google ColabはGPUやTPUなどのコンピューティング・リソースへの無料のクラウド・アクセスを提供します。
他のAIモデルと同様に、Google Gemmaは次のようなAIのリスクに引き続き取り組んでいます。
バイアス:小規模なモデルは、大規模なモデルに存在するバイアスから学習する可能性があり、このドミノ効果が結果に影響を与えるおそれがあります。
ハルシネーション:GemmaのようなSLMのアウトプットの検証と監視は、生成内容の正確性と事実としての正しさ確保する上で不可欠です。
プライバシー侵害:Google社は、GemmaとGemma 2のトレーニング・データ・セットはフィルタリングされており、特定の個人情報やその他の機密データは削除されていると述べています4。それでも、個人情報や占有データの漏えいを避けるため、個人ユーザーや企業はGemmaのファイン・チューニングに使用するデータを注意して扱わなければなりません。
安全性とセキュリティーに関して、Googleは、攻撃的サイバーセキュリティー、CBRN(化学 (Chemical)・生物 (Biological)・放射性物質 (Radiological)・核 (Nuclear))の知識、自己拡散(自律的に複製する能力)、説得力など、いくつかのメトリクスに基づいてGemmaを評価しました。CBRNドメインに関するGemmaの知識は低く、同様にこのモデルは、攻撃的なサイバーセキュリティー、自己拡散、説得力においても低い機能となっています。4
Googleはまた、AI研究者や開発者が責任ある安全なAIアプリケーションを構築できるように、責任ある生成AIツールキットもリリースしました。1
すべてのリンク先は、ibm.comの外部にあります。
1 Gemma: Introducing new state-of-the-art open models、Google社、2024年2月21日
2 Gemma 2 is now available to researchers and developers、Google社、2024年6月27日
3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind社、2024年2月21日
4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind社、2024年6月27日
5 CodeGemma model card、Google AI for developers、2024年8月5日
6 Knowing When to Ask — Bridging Large Language Models and Data、arXiv社、2024年9月10日
7 PaliGemma model card、GoogleAI for developers、2024年8月5日
8 PaliGemma、Google AI for developers、2024年8月5日
9 RecurrentGemma model card、Google AI for developers、2024年8月5日
10 Transformer: A Novel Neural Network Architecture for Language Understanding、Google Research社、2017年8月31日
11 Gemma explained: An overview of Gemma model family architectures、Google for Developers、2024年8月15日
12 Gemma Open Models、Google AI for Developers、アクセス日:2024年11月5日
13 Un Ministral, des Ministraux、Mistral AI、2024年10日16日
14 Introducing Phi-3: Redefining what’s possible with SLMs、Microsoft社、2024年4月23日
IBM® Granite™をご紹介します。ビジネス向けに特化し、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
ユースケースに最適なAI基盤モデルを選択する方法について説明します。
IBM Developerの記事、ブログを読み、チュートリアルで学んで、LLMに関する知識を深めましょう。
最新のAI技術とインフラストラクチャーを使用して、モデルのパフォーマンスを向上させ、競合他社に差をつけるよう、チームを継続的に後押しする方法を学びましょう。
あらゆる業界に信頼性、パフォーマンス、費用対効果の高いメリットを提供する エンタープライズ・グレードの基盤モデルの価値に関する 詳細をご覧ください。
生成AI、機械学習、基盤モデルをビジネス・オペレーションに組み込んでパフォーマンスを向上させる方法をご紹介します。
2,000の組織を対象に実施されたAIの取り組みに関する調査結果をご覧ください。成功事例や課題、そしてAIを活用して競争優位性を高めるためのヒントが得られます。