Google Geminiとは

共同執筆者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Google Geminiとは

GeminiはGoogleの大規模言語モデル（LLM）です。もっと広義には、音声、画像、ソフトウェア・コード、テキスト、動画など、複数のモダリティーや種類のデータを処理するために設計されたマルチモーダルAIモデルのファミリーです。

Geminiは、同じ名前のGoogleの生成AI（gen AI）チャットボット（旧称Bard）を動作させるモデルでもあります。これは、AnthropicのClaudeが、チャットボットとそれを支えるLLMファミリーの両方にちなんで名付けられているのと同じです。Geminiアプリは、Webとモバイルの両方で、基盤となるモデルのチャットボット・インターフェースとして機能します。

Googleは、Geminiチャットボットを自社のテクノロジー・スイートに段階的に統合しています。例えば、GeminiはGoogleアシスタントに取って代わり、最新のGoogle Pixel 9およびPixel 9 Proスマートフォンに搭載されたデフォルトの人工知能（AI）アシスタントになっています。Google Workspaceでは、Geminiはドキュメントのサイドパネルでコンテンツの作成と編集を支援し、GmailのサイドパネルではEメールの下書き、返信の提案、ユーザーの受信トレイからの情報検索などを支援します。

他のGoogleアプリにもGeminiが組み込まれています。例えば、Googleマップは、Geminiモデルの機能を利用して場所やエリアの概要を提供しています。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

Google Geminiの仕組み

Geminiは、多言語およびマルチモーダル・データセットの大規模なコーパスでトレーニングされています。これは、Google自身が2017年に導入したニューラル・ネットワークアーキテクチャーであるTransformerモデルを採用しています。¹

Transformerモデルがどのように機能するかを以下に簡単に説明します。

エンコーダーは、インプットシーケンスを、そのシーケンス内のトークンの意味と位置を取得する「埋め込み」と呼ばれる数値表現に変換します。

Transformerは自己注意メカニズムにより、トークンの位置とは無関係に、インプット・シーケンス内の最も重要なトークンに「注意を集中させる」ことができます。

デコーダーは、この自己注意メカニズムとエンコーダーによる埋め込みを使用して、統計的に最も確率の高いアウトプット・シーケンスを生成します。

テキストベースのプロンプトのみを受け取る生成型の事前トレーニング済みTransformer（GPT）モデルや、テキストと画像の両方のプロンプトを受け取る画像生成に使用される拡散モデルとは異なり、Google Geminiはオーディオ、画像、テキスト、動画のインターリーブ・シーケンスをインプットとしてサポートし、インターリーブされたテキストと画像の出力を生成できます。²

Gemini AIモデルのバージョン

マルチモーダルAIモデルのGeminiファミリーには複数のバリアントがあります。各バリアントは、さまざまなデバイスやタスク向けに最適化されています。

Geminiの第1世代モデルである1.0には、NanoとUltraの2種類があります。次世代モデルの1.5には、ProとFlashがあります。

GeminiのAI機能の構築と実験は、Google AI StudioおよびGoogle CloudのVertex AI開発プラットフォームのGemini APIを介して行うことができます。現時点では、Gemini 1.5 ProとGemini 1.5 Flashのみが利用可能です。

Gemini 1.0 Nano

Gemini 1.0 Nanoは、データ・ネットワークがなくてもモバイル・デバイスで動作できるように設計された1.0ファミリーの最小バージョンです。画像の説明、チャット・メッセージへの返信の提案、テキストの要約、音声の書き起こしなどのデバイス上でのタスクを実行できます。

Gemini Nanoは、Pixel 8 Pro以降のAndroidデバイスで利用できます。Googleは、モバイル専用の制限を超えて、Chromeデスクトップ・クライアントにGemini Nanoを組み込んでいます。

Gemini 1.0 Ultra

Gemini 1.0 Ultraは、高度な分析機能を備えた1.0ファミリーの最大バージョンです。コーディング、数学的推論、マルチモーダル推論などの非常に複雑なタスク用に構築されています。Gemini NanoとGemini Ultraのコンテキスト・ウィンドウ（モデルが一度に処理できるトークン数）は両方とも32,000トークンです。²

Gemini 1.5 Pro

Gemini 1.5 Proは、最大200万トークンのコンテキスト・ウィンドウを備えた中規模のマルチモーダル・モデルです。この長いコンテキスト・ウィンドウにより、Gemini Proは、数時間のオーディオや動画から、数千行のコードや数百ページのドキュメントまで、より大規模な情報を処理できます。³

Gemini 1.5 Proは、Transformerアーキテクチャーに加えて、Mixture of Experts（MoE）アーキテクチャーを適用します。MoEモデルは、それぞれが特定のドメインまたはデータ・タイプに特化した、より小さな「専門家」ニューラル・ネットワークに分割されます。このモデルは、インプットされたタイプに応じて、最も関連性の高い専門家のみを選択的にアクティブ化することを学習します。これにより、計算コストを削減しながら、より迅速な性能が実現します。⁴

Gemini 1.5 Flash

Gemini 1.5 Flashは、Gemini Proの軽量版です。これは、知識蒸留と呼ばれる機械学習（ML）技術を使用してトレーニングされ、Gemini 1.5 Proの洞察がよりコンパクトなGemini 1.5 Flashに転送されています。主要な機能として、最大100万トークンという長いコンテキスト・ウィンドウがあり、レイテンシーが低いため、より高速で効率的です。³

Google Geminiの簡単な歴史

GoogleはLLMアーキテクチャーの先駆者であり、その強力な研究を活用して独自のAIモデルを開発しています。

2017年：Googleの研究者が、今日のLLMの多くを支えるTransformerアーキテクチャーを発表しました。

2020年：同社は、26億のパラメーターを備えたニューラル・ネットワーク・ベースの会話エージェントであるMeenaチャットボットを発表しました。⁵

2021年：Google は、会話型アプリケーションであるLaMDA（Language Model for Dialogue Applications）を発表しました。⁶

2022年：LaMDAと比較してより高度な機能を備えたPaLM（Pathways Language Model）がリリースされました。⁷

2023年：軽量で最適化されたLaMDAバージョンを搭載したBardが、同年第1四半期にリリースされました。⁸第2四半期には、強化されたコーディング、多言語、推論スキルを備えたPaLM 2がリリースされ、Bardによって採用されました。⁹ Googleは、その年の最終四半期にGemini 1.0を発表しました。

2024年：GoogleはBardをGeminiに改名し、マルチモーダルAIモデルをバージョン1.5にアップグレードしました。

「Gemini」という言葉はラテン語で「双子」を意味し、黄道十二宮や星座の双子の意味を有しています。これは、GeminiモデルがGoogle DeepMindの発案によるものであり、DeepMindとGoogle Brainのチーム間の力の融合を表すうえでピッタリの名前でした。同社はまた、アポロ計画の成功に欠かせなかったNASAの2人乗り宇宙船「ジェミニ計画」からもインスピレーションを得ました。¹⁰

ジェミニの性能

Gemini Ultraは、さまざまなLLMベンチマークで同様のモデルを上回っています。数学的推論のGSM8K、コード生成のHumanEval、自然言語理解のMMLUなどのベンチマークにおいて、Claude 2、GPT-4、Llama 2よりも優れた性能を発揮します。²

注目すべきことに、Gemini Ultraは、MMLUで人間の専門家のパフォーマンスをも上回っています。しかし、常識的な推論と自然言語推論に関しては、GPT-4がHellaSwagベンチマークにおいてGemini Ultraよりも優れた性能を発揮しています。²

GoogleはGemini Ultraのマルチモーダル機能も評価し、文書理解、画像理解、自動音声認識のベンチマークにおいては、他のモデルよりも高い性能を発揮しました。また、自動音声翻訳、英語の動画キャプション、マルチモーダル理解と推論、動画の質問応答などのベンチマークではLLMを上回っているものの、これらの分野でのGemini Ultraの性能は改善の余地を残しています。²

一方、Gemini 1.5 FlashとGemini 1.5 Proの性能はどちらも、Gemini 1.0 Ultraに匹敵するか、それを上回っています。¹¹コンテキスト・ウィンドウが拡大しても、Gemini 1.5 Proは高いレベルの性能を維持します。⁴

Geminiのユースケース

Google Geminiはまだ初期段階にありますが、この非常に有能なAIモデルは、以下のようなさまざまなアプリケーションに実装できる可能性を秘めています。

Advancedコーディング

画像とテキストの理解

言語翻訳

マルウェア分析

パーソナライズされたAI専門家

ユニバーサルAIエージェント

音声アシスタント

Advancedコーディング

Gemini AIモデルは、C++、Java、Pythonなどのプログラミング言語にまたがって、コードを理解、説明、生成することができます。Google は、Gemini Proのファイン・チューニング・バージョンを基盤モデルとして使用し、理論コンピュータ－・サイエンスと複雑な数学の要素を使用して競技プログラミングの問題を解決できるコード生成システムであるAlphaCode2を開発しました。

画像とテキストの理解

Geminiは、画像やキャプション画像からテキストを抽出するために使用できます。テキストの画像を機械が読み取り可能な形式に変換する光学文字認識（OCR）ツールを使用せずに、チャート、図、図表などのビジュアルを分析できます。

言語翻訳

GoogleのAIモデルは多言語機能を備えているため、さまざまな言語を翻訳するために使用できます。例えば、Meetのビデオ会議アプリでは、ユーザーは翻訳字幕をオンにして、特定の言語間で翻訳できます。

マルウェア分析

Gemini 1.5 ProとGemini 1.5 Flashはどちらもマルウェア分析に使用できます。Gemini Proは、ファイルやコード・スニペットが悪意があるかどうかを正確に判断し、その結果の詳細なレポートを生成できます。¹² 一方、Gemini Flashは、迅速かつ大規模なマルウェア検知を実施できます。¹³

パーソナライズされたAI専門家

Googleは最近、Gemsと呼ばれる新機能をリリースしました。この機能では、ユーザーはGeminiチャットボットをカスタマイズして、あらゆるタスクやトピックについてカスタマイズされたAIの「専門家」を作成できます。事前に作成されたGemの例としては、複雑なトピックを細分化して理解しやすくする学習コーチ、次の動画に向けた新鮮なアイデアを提供するブレーンストーミング・パートナー、文法と構造についてフィードバックを提供するライティング・エディターなどがあります。

Gemsには、Gemini 1.5 Proモデルを使用するGemini Advancedサブスクリプションが付属しています。

ユニバーサルAIエージェント

GoogleはProject Astraを通じて、Geminiモデルを基盤にマルチモーダル情報をリアルタイムで処理、記憶、理解できる汎用AIエージェントを作成しています。再現性と効率を向上させるために、Project Astraはキャッシュ、ビデオ・フレームの継続的なエンコード、イベントのタイムラインへの音声と動画インプットの結合を利用しています。¹⁴

Googleのデモでは、Gemini AIアシスタントがスピーカーの詳細を説明し、その人がいる地域を認識し、眼鏡を置いた場所を記憶できました。¹⁴