GeminiはGoogleの大規模言語モデル(LLM)です。もっと広義には、音声、画像、ソフトウェア・コード、テキスト、動画など、複数のモダリティーや種類のデータを処理するために設計されたマルチモーダルAIモデルのファミリーです。
Geminiは、同じ名前のGoogleの生成AI(gen AI)チャットボット(旧称Bard)を動作させるモデルでもあります。これは、AnthropicのClaudeが、チャットボットとそれを支えるLLMファミリーの両方にちなんで名付けられているのと同じです。Geminiアプリは、Webとモバイルの両方で、基盤となるモデルのチャットボット・インターフェースとして機能します。
Googleは、Geminiチャットボットを自社のテクノロジー・スイートに段階的に統合しています。例えば、GeminiはGoogleアシスタントに取って代わり、最新のGoogle Pixel 9およびPixel 9 Proスマートフォンに搭載されたデフォルトの人工知能(AI)アシスタントになっています。Google Workspaceでは、Geminiはドキュメントのサイドパネルでコンテンツの作成と編集を支援し、GmailのサイドパネルではEメールの下書き、返信の提案、ユーザーの受信トレイからの情報検索などを支援します。
他のGoogleアプリにもGeminiが組み込まれています。例えば、Googleマップは、Geminiモデルの機能を利用して場所やエリアの概要を提供しています。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
Geminiは、多言語およびマルチモーダル・データセットの大規模なコーパスでトレーニングされています。これは、Google自身が2017年に導入したニューラル・ネットワーク アーキテクチャーであるTransformerモデルを採用しています。1
Transformerモデルがどのように機能するかを以下に簡単に説明します。
エンコーダーは、インプットシーケンスを、そのシーケンス内のトークンの意味と位置を取得する「埋め込み」と呼ばれる数値表現に変換します。
Transformerは自己注意メカニズムにより、トークンの位置とは無関係に、インプット・シーケンス内の最も重要なトークンに「注意を集中させる」ことができます。
デコーダーは、この自己注意メカニズムとエンコーダーによる埋め込みを使用して、統計的に最も確率の高いアウトプット・シーケンスを生成します。
テキストベースのプロンプトのみを受け取る生成型の事前トレーニング済みTransformer(GPT)モデルや、テキストと画像の両方のプロンプトを受け取る画像生成に使用される拡散モデルとは異なり、Google Geminiはオーディオ、画像、テキスト、動画のインターリーブ・シーケンスをインプットとしてサポートし、インターリーブされたテキストと画像の出力を生成できます。2
マルチモーダルAIモデルのGeminiファミリーには複数のバリアントがあります。各バリアントは、さまざまなデバイスやタスク向けに最適化されています。
Geminiの第1世代モデルである1.0には、NanoとUltraの2種類があります。次世代モデルの1.5には、ProとFlashがあります。
GeminiのAI機能の構築と実験は、Google AI StudioおよびGoogle CloudのVertex AI開発プラットフォームのGemini APIを介して行うことができます。現時点では、Gemini 1.5 ProとGemini 1.5 Flashのみが利用可能です。
Gemini 1.0 Nanoは、データ・ネットワークがなくてもモバイル・デバイスで動作できるように設計された1.0ファミリーの最小バージョンです。画像の説明、チャット・メッセージへの返信の提案、テキストの要約、音声の書き起こしなどのデバイス上でのタスクを実行できます。
Gemini Nanoは、Pixel 8 Pro以降のAndroidデバイスで利用できます。Googleは、モバイル専用の制限を超えて、Chromeデスクトップ・クライアントにGemini Nanoを組み込んでいます。
Gemini 1.0 Ultraは、高度な分析機能を備えた1.0ファミリーの最大バージョンです。コーディング、数学的推論、マルチモーダル推論などの非常に複雑なタスク用に構築されています。Gemini NanoとGemini Ultraのコンテキスト・ウィンドウ(モデルが一度に処理できるトークン数)は両方とも32,000トークンです。2
Gemini 1.5 Proは、最大200万トークンのコンテキスト・ウィンドウを備えた中規模のマルチモーダル・モデルです。この長いコンテキスト・ウィンドウにより、Gemini Proは、数時間のオーディオや動画から、数千行のコードや数百ページのドキュメントまで、より大規模な情報を処理できます。3
Gemini 1.5 Proは、Transformerアーキテクチャーに加えて、Mixture of Experts(MoE)アーキテクチャーを適用します。MoEモデルは、それぞれが特定のドメインまたはデータ・タイプに特化した、より小さな「専門家」ニューラル・ネットワークに分割されます。このモデルは、インプットされたタイプに応じて、最も関連性の高い専門家のみを選択的にアクティブ化することを学習します。これにより、計算コストを削減しながら、より迅速な性能が実現します。4
GoogleはLLMアーキテクチャーの先駆者であり、その強力な研究を活用して独自のAIモデルを開発しています。
2017年:Googleの研究者が、今日のLLMの多くを支えるTransformerアーキテクチャーを発表しました。
2020年:同社は、26億のパラメーターを備えたニューラル・ネットワーク・ベースの会話エージェントであるMeenaチャットボットを発表しました。5
2021年:Google は、会話型アプリケーションであるLaMDA(Language Model for Dialogue Applications)を発表しました。6
2022年:LaMDAと比較してより高度な機能を備えたPaLM(Pathways Language Model)がリリースされました。7
2023年:軽量で最適化されたLaMDAバージョンを搭載したBardが、同年第1四半期にリリースされました。8第2四半期には、強化されたコーディング、多言語、推論スキルを備えたPaLM 2がリリースされ、Bardによって採用されました。9 Googleは、その年の最終四半期にGemini 1.0を発表しました。
2024年:GoogleはBardをGeminiに改名し、マルチモーダルAIモデルをバージョン1.5にアップグレードしました。
「Gemini」という言葉はラテン語で「双子」を意味し、黄道十二宮や星座の双子の意味を有しています。これは、GeminiモデルがGoogle DeepMindの発案によるものであり、DeepMindとGoogle Brainのチーム間の力の融合を表すうえでピッタリの名前でした。同社はまた、アポロ計画の成功に欠かせなかったNASAの2人乗り宇宙船「ジェミニ計画」からもインスピレーションを得ました。10
Gemini Ultraは、さまざまなLLMベンチマークで同様のモデルを上回っています。数学的推論のGSM8K、コード生成のHumanEval、自然言語理解のMMLUなどのベンチマークにおいて、Claude 2、GPT-4、Llama 2よりも優れた性能を発揮します。2
注目すべきことに、Gemini Ultraは、MMLUで人間の専門家のパフォーマンスをも上回っています。しかし、常識的な推論と自然言語推論に関しては、GPT-4がHellaSwagベンチマークにおいてGemini Ultraよりも優れた性能を発揮しています。2
GoogleはGemini Ultraのマルチモーダル機能も評価し、文書理解、画像理解、自動音声認識のベンチマークにおいては、他のモデルよりも高い性能を発揮しました。また、自動音声翻訳、英語の動画キャプション、マルチモーダル理解と推論、動画の質問応答などのベンチマークではLLMを上回っているものの、これらの分野でのGemini Ultraの性能は改善の余地を残しています。2
一方、Gemini 1.5 FlashとGemini 1.5 Proの性能はどちらも、Gemini 1.0 Ultraに匹敵するか、それを上回っています。11コンテキスト・ウィンドウが拡大しても、Gemini 1.5 Proは高いレベルの性能を維持します。4
Google Geminiはまだ初期段階にありますが、この非常に有能なAIモデルは、以下のようなさまざまなアプリケーションに実装できる可能性を秘めています。
Advancedコーディング
画像とテキストの理解
言語翻訳
マルウェア分析
パーソナライズされたAI専門家
ユニバーサルAIエージェント
音声アシスタント
Gemini AIモデルは、C++、Java、Pythonなどのプログラミング言語にまたがって、コードを理解、説明、生成することができます。Google は、Gemini Proのファイン・チューニング・バージョンを基盤モデルとして使用し、理論コンピュータ-・サイエンスと複雑な数学の要素を使用して競技プログラミングの問題を解決できるコード生成システムであるAlphaCode2を開発しました。
Geminiは、画像やキャプション画像からテキストを抽出するために使用できます。テキストの画像を機械が読み取り可能な形式に変換する光学文字認識(OCR)ツールを使用せずに、チャート、図、図表などのビジュアルを分析できます。
GoogleのAIモデルは多言語機能を備えているため、さまざまな言語を翻訳するために使用できます。例えば、Meetのビデオ会議アプリでは、ユーザーは翻訳字幕をオンにして、特定の言語間で翻訳できます。
Gemini 1.5 ProとGemini 1.5 Flashはどちらもマルウェア分析に使用できます。Gemini Proは、ファイルやコード・スニペットが悪意があるかどうかを正確に判断し、その結果の詳細なレポートを生成できます。12 一方、Gemini Flashは、迅速かつ大規模なマルウェア検知を実施できます。13
Googleは最近、Gemsと呼ばれる新機能をリリースしました。この機能では、ユーザーはGeminiチャットボットをカスタマイズして、あらゆるタスクやトピックについてカスタマイズされたAIの「専門家」を作成できます。事前に作成されたGemの例としては、複雑なトピックを細分化して理解しやすくする学習コーチ、次の動画に向けた新鮮なアイデアを提供するブレーンストーミング・パートナー、文法と構造についてフィードバックを提供するライティング・エディターなどがあります。
Gemsには、Gemini 1.5 Proモデルを使用するGemini Advancedサブスクリプションが付属しています。
GoogleはProject Astraを通じて、Geminiモデルを基盤にマルチモーダル情報をリアルタイムで処理、記憶、理解できる汎用AIエージェントを作成しています。再現性と効率を向上させるために、Project Astraはキャッシュ、ビデオ・フレームの継続的なエンコード、イベントのタイムラインへの音声と動画インプットの結合を利用しています。14
Googleのデモでは、Gemini AIアシスタントがスピーカーの詳細を説明し、その人がいる地域を認識し、眼鏡を置いた場所を記憶できました。14
Gemini Liveを使用すると、ユーザーはより自然な会話型のGeminiチャットボットと対話できます。より直感的な応答を提供し、人の会話スタイルに適応できます。
他のLLMと同様に、Google GeminiもAIのリスクに引き続き取り組んでいます。特にGeminiの使用を計画している個人や、商用利用やワークフローへの統合を検討している組織は、注意が必要です。
偏見:2024年2月、Googleは、歴史上の人物の描写が不正確であったため、Geminiチャットボットの人物画像作成機能を一時停止することを決定し、人種的偏見の歴史を消し去りました。15
ハルシネーション:本稿執筆時点では、Geminiが支援するAI概要検索の結果は、依然として時折、事実に反する出力を生成することがあります。
知的財産侵害:Googleは、フランスの規制当局により罰金を科されました。同社のAIチャットボットが国または地域の出版社の知らないうちに、または同意なしにニュース記事やコンテンツを使ってトレーニングしたためです。16
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1「Transformer: A Novel Neural Network Architecture for Language Understanding」、Google Research、2017年8月31日。
2「Gemini: A Family of Highly Capable Multimodal Models」、Google DeepMind、アクセス日:2024年9月16日。
3「Gemini Models」Google DeepMind、アクセス日:2024年9月16日。
4「Our next-generation model: Gemini 1.5」、Google、2024年2月15日。
5「Towards a Conversational Agent that Can Chat About…Anything」、Google Research、2020年1月28日。
6「LaMDA: our breakthrough conversation technology」、Google、2021年5月18日。
7「Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance」、Google Research、2022年4月4日。
8「Try Bard and share your feedback」、Google、2023年3月21日。
9「Introducing PaLM 2」、Google、2023年5月10日。
10「How Google’s AI model Gemini got its name」、Google、2024年5月15日。
11「Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context」、Google DeepMind、アクセス日:2024年9月16日。
12「From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis」、Google Cloud、2024年4月30日。
13「Scaling Up Malware Analysis with Gemini 1.5 Flash」、Google Cloud、2024年7月16日。
14「Project Astra」、Google DeepMind、アクセス日:2024年9月16日。
15「Google chief admits ‘biased’ AI tool’s photo diversity offended users」、The Guardian、2024年2月28日。
16「Google fined €250m in France for breaching intellectual property deal」、The Guardian、2024年3月20日。