タグ

大規模言語モデルのリスト

共同執筆者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

大規模言語モデルのリスト

生成AIのブームにより、その原動力である大規模言語モデル（LLM）に注目が集まっています。すでに数十種類のLLMが存在していますが、テクノロジーの急速な進歩に伴い、こうした人工知能（AI）モデルが次々と登場しています。

例えば、自動車業界に目を向けてみましょう。世界中の何百もの自動車メーカーが、多様な消費者ニーズに応える独自のモデルを展開しています。自動車もまた、ガソリン車から多くのスマート機能を備えた電気自動車へと、時代とともに進化してきました。

LLMについても同様です。これらのAIシステムは、膨大な量のデータセットでトレーニングされた複数のニューラル・ネットワーク層で構成された基盤モデルとして始まりました。

ディープラーニング手法を採用して、自然言語処理（NLP）と自然言語理解（NLU）のタスクを実行します。一方、その機能は向上しており、エージェント型AI機能と推論が含まれるようになりました。

この急速な進化は、LLMの状況が常に変化していることを意味します。AI開発者は、この急速な進歩に対応するために、モデルを継続的に更新したり、場合によっては新しいモデルを組み込んだりする必要があります。

コンテンツの要約、機械翻訳、感情分析、テキスト生成などのNLPおよびNLUタスクは引き続き主流ですが、AI開発者は特定のユースケースに合わせてモデルをカスタマイズしています。

例えば、一部のLLMはコード生成専用に作成されていますが、他のLLMはビジョン言語タスクを処理するために作成されています。

すべてのLLMを挙げることは不可能ですが、組織が選択肢を絞り込み、どのモデルがニーズを満たすかを検討する際に役立つ、最新かつ人気のある大規模言語モデルのリストを以下に示します。

Claude

開発者： Anthropic社

リリース日： 2025年2月（Claude 3.7 Sonnet）

パラメーター数：非公開

コンテキスト・ウィンドウ：200,000トークン

ライセンス： プロプライエタリー

アクセス： Anthropic API、Amazon Bedrock、Google クラウド Vertex AI

インプット：マルチモーダル（画像、テキスト）

アウトプット： テキスト

Claudeは、Transformerアーキテクチャーに基づくLLMファミリーです。これは、同名の対話型AIアシスタントを支える大規模モデルです。Claudeの設計は、AIの安全性を重視し、AIバイアスなどの有害な動作を低減するAI憲法原則に基づいています。

Claudeファミリーは、次の3つのAIモデルで構成されています。

● Claude Haiku

● Claude Sonnet

● Claude Opus

Claude Haiku

Claude 3.5 Haikuは最速のモデルです。カスタマー・サービスのチャットボットや、ソフトウェア開発ワークフローを高速化するコード補完など、低遅延のユースケースに最適です。

Claude Sonnet

Claude 3.7 Sonnetは、Anthropic社が「これまでで最もインテリジェントなモデル」と呼ぶものです。この推論モデルは「拡張思考」モードを備えており、応答前に自己反省することができます。Anthropic APIを使用するユーザーは、モデルの思考時間を指定することもできます。

Claude 3.7 Sonnetは、コード生成、コンピューターの使用（LLMが人間と同じようにコンピューターを使用できるようにする）、視覚データからの情報の抽出、質問への回答など、より具体的なタスク用に実装できます。

Claude Opus

Claude 3 Opusは3つの中で最も強力なモデルです。詳細な分析や、複数のステップで構成されるより長く複雑なタスクを処理できます。

コマンド

開発者：Cohere社

リリース日： 2024年4月（Command R+）、2024年12月(Command R7B）

パラメーター数：最大1,040億

コンテキスト・ウィンドウ：128,000トークン

ライセンス： プロプライエタリー

アクセス： Cohere API、Amazon Bedrock、Microsoft Azure AIStudio、Oracle Cloud Infrastructure Generative AI

インプット： テキスト

アウトプット： テキスト

Commandは、Cohereの主力言語モデルです。エンタープライズ向けLLMファミリーには、以下のモデルが含まれています。

● Command R

● Command R+

● Command R7B

Command R

Command Rは、320億のパラメーターを備えた多言語テキスト生成モデルです。¹ 応答に引用を提供することで、検索拡張生成（RAG）能力を基盤とするようにトレーニングされています。Command Rは、対話型ツールとしても使用できます。

Command R+

Command R+は、1,040 億のパラメーターを備えたより強力なバージョンです。²複雑なRAG関数と複数のステップが必要なツールの使用を処理できるため、AIエージェントは、外部ツールを呼び出して、最新情報の収集や知識ベースの更新を行うことができます。

Command R7B

Command R7Bは、パラメーター数が70億の最小かつ最速のモデルです。CPUベースのデプロイメント、ローエンドのGPU、その他のエッジデバイスに最適で、デバイス上での推論にも実装できます。

DeepSeek-R1

開発者： DeepSeek社

リリース日：2025年1月

パラメーター数：6,710億

コンテキスト・ウィンドウ：128,000トークン

ライセンス：オープンソース（MIT License）

アクセス： DeepSeek API、Hugging Face

インプット：テキスト

アウトプット： テキスト

DeepSeek-R1は、中国のAIスタートアップ企業であるDeepSeek社のオープンソースの推論モデルです。これは、Mixture of Experts （MoE）機械学習アーキテクチャーを使用し、大規模な強化学習を使用してトレーニングされており、推論能力が向上しています。

DeepSeek-R1は、特定のLLMベンチマークにおいて、OpenAIの o1シリーズの推論モデルと同等以上の性能があります。DeepSeek-R1 は知識蒸留も使用し、はるかに大規模なDeepSeek-R1 LLMによって生成された推論データを使用して、いくつかの小規模なLlamaモデルとQwenモデルをファイン・チューニングしました。

結果として得られた精製モデルは、元のモデルの推論能力を強化し、他の大規模なモデルよりもパフォーマンスが向上しています。³

Falcon

開発者：Technology Innovation Institute

リリース日：2024年12月（Falcon 3）

パラメーター数：最大1,800億

コンテキスト・ウィンドウ：最大32,000トークン

ライセンス：オープンソース

アクセス：Hugging Face

インプット： テキスト

アウトプット： テキスト

Falconは、アラブ首長国連邦の研究所Technology Innovation Institute（TII）の研究者によって開発されたオープンソースモデル群です。これらのモデルは、TII独自のRefinedWeb（フィルタリングされた英語のウェブデータを含む大規模なデータセット）を使用してトレーニングされました。

ファルコンは次のLLMで構成されています。

● Falcon 2

● Falcon 3

● Falcon Mamba 7B

その他の以前の大型のFalconバージョンには、パラメーター数が400億のFalcon 40Bと、パラメーター数が1,800億のFalcon 180Bがあります。

Falcon 2

Falcon 2 11Bは、パラメーター数が110億の因果デコーダーのみのモデルです。多言語サポートを備え、近々、視覚から言語への変換機能も搭載される予定です。

Falcon 3

Falcon 3はデコーダーのみの設計を採用し、10億、30億、70億、100億の軽量パラメーター・サイズで提供されます。前モデルを改良し、推論能力が向上しています。

Falcon Mamba 7B

Falcon Mamba 7Bは、一般的なLLM Transformerアーキテクチャーから逸脱した状態空間言語モデル（SSLM）です。Transformerモデルは、インプット・シーケンスで最も重要なトークンに「注意を集中」させるためのアテンション・メカニズムを使用します。ただし、コンテキスト・ウィンドウが大きくなると、Transformerはより多くのメモリーと計算能力を必要とします。

SSLMは処理中に継続的に「状態」を更新し、選択アルゴリズムを用いてインプットに応じてパラメーターを動的に調整します。これにより、Falcon Mamba 7Bは追加メモリーを必要とせずに長いテキスト・シーケンスを処理し、コンテキストの長さに関係なく同じ時間で新しいトークンを生成することができます。

Gemini

開発者：Google DeepMind社

リリース日：2024年12月

パラメーターの数：非公開

コンテキスト・ウィンドウ：100万トークン

ライセンス： プロプライエタリー

アクセス： Gemini API、Google AIStudio、Google Cloud Vertex AI

インプット：マルチモーダル（オーディオ、画像、テキスト、動画）

アウトプット： テキスト

Geminiは、Google社のマルチモーダルモデルスイートです。また、同名の生成AIチャットボット（旧称Bard）にも採用されています。

Geminiは、Google社が開発したニューラル・ネットワーク・アーキテクチャーであるTransformerモデルを採用しており、BERT（Bidirectional Encoder Representations from Transformers）やPaLM 2（Pathways Language Model）など、同社のこれまでの基盤言語モデルをベースにしています。

最新バージョンのGemini 2.0は、Google社によると「エージェント時代に向けて開発」されています。Gemini 2.0には、以下のさまざまなバージョンがあります。

● Gemini 2.0 Flash

● Gemini 2.0 Flash-Lite

● Gemini 2.0 Pro

Gemini 2.0 Flash

Gemini 2.0 Flashは、ツールの使用をサポートする軽量モデルです。近日中に画像生成とテキスト読み上げ機能などの機能が追加される予定です。

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Liteは、軽量でコスト効率に優れた従来の1.5 Flashの改良版です。速度とコストはそのままに、品質を向上させています。

Gemini 2.0 Pro

Gemini 2.0 Proは、ツール利用機能と200万トークンという長いコンテキスト・ウィンドウにより、Google社がコーディングと複雑なプロンプトへの対応において最強のモデルと呼んでいるものです。まだ実験段階です。

GPT

開発者：OpenAI社

リリース日： GPT-4oは2024年5月、GPT-4o miniは2024年7月

パラメーター数：非公開

コンテキスト・ウィンドウ：128,000トークン

ライセンス： プロプライエタリー

アクセス： .NET、JavaScript、Python、TypeScriptを使用したOpenAI API

インプット： マルチモーダル（音声、画像、テキスト、動画）

アウトプット：マルチモーダル（オーディオ、画像、テキスト）

生成的事前学習済みTransformer（GPT）は、OpenAI社によって開発された大規模言語モデルのラインです。GPTには、次のLLMが含まれています。

● GPT-4o

● GPT-4o mini

GPT-4o

GPT-4oは、多言語・マルチモーダルモデルです。最も先進的なLLMの一つであるGPT-4oは、音声、テキスト、ビジュアル・インプットを処理し、音声、画像、テキストを任意に組み合わせたアウトプットを生成することができます。

GPT-4 TurboおよびGPT-4の前身モデルと比べてパフォーマンスが向上しています。GPT-4o は、OpenAI社のChatGPT生成AIチャットボットを支える最新のLLMです。

GPT-4o mini

GPT-4o miniは、画像とテキストのインプットを受け付け、テキスト・アウトプットを生成する、より小型で手頃な価格のモデルです。パフォーマンス面ではGPT-3.5 Turboを上回っています。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

Granite

開発者： IBM®

リリース日：2025年2月

パラメーター数： 最大340億

コンテキスト・ウィンドウ：128,000トークン

ライセンス：オープンソース（Apache 2.0）

アクセス： IBM® watsonx.ai、Hugging Face、LM Studio、 Ollama、Replicate

インプット：マルチモーダル（画像、テキスト）

アウトプット： テキスト

IBM® Graniteは、エンタープライズ対応のオープンソースLLMシリーズで、これには以下のモデルがあります。

● Granite 3.2

● Granite Vision

Granite 3.2

Granite 3.2には、RAGタスクのための強化された推論機能と高度な機能が組み込まれています。 20億および80億のパラメーター・サイズのものがあります。

Granite 3.2のトレーニング・データは、許容ライセンスのオープンソース・データセットと、長いコンテキストの問題を解決するためにカスタマイズされた、内部で収集された高品質の合成データセットを組み合わせたものです。

Granite Vision

Granite Visionは、視覚的な文書理解に特化した20億のパラメーターを持つビジョン言語モデルです。グラフ、図、表から効率的にコンテンツを抽出できるように設計されており、構造化データ分析に適しています。

Graniteシリーズのその他のLLMは、次の特殊なモデルで構成されています。

● Granite Code

● Granite Guardian

● Granite Embedding

Granite Code

これらのデコーダー専用モデルは、コード編集、コード説明、コード生成などのコード生成タスク用に設計されています。Granite Codeモデルは、116のプログラミング言語で記述されたコードを使用してトレーニングされており、30億、80億、200億、340億のパラメーターのサイズのものがあります。

Granite Guardian

Granite Guardianモデルは、プロンプトとレスポンスにおけるリスクを検知するために設計されたLLMベースのガードレールです。Granite Guardianには、20億、30億、50億、80億のパラメーターのサイズのものがあります。

Granite Embedding

Granite Embeddingモデルは、セマンティック検索やRAGなどの検索ベースのアプリケーション専用に構築された文変換モデルです。

Grok

開発者：xAI社

リリース日：2025年2月（Grok 3）

パラメーター数： 3,140億

コンテキスト・ウィンドウ：128,000トークン

ライセンス： プロプライエタリー

アクセス：xAIAPI

インプット：マルチモーダル（画像、テキスト）

アウトプット： テキスト

GrokはxAIの言語モデルです。第一世代のLLMであるGrok-1は、3140億のパラメーターを持つMoEモデルです。その巨大なサイズのため、Grok-1のモデル重みの25％のみが、特定のインプット・トークンに対して有効となります。

2024年3月、xAIは128,000トークンのコンテキストウィンドウと強化された問題解決機能を備えたGrok-1.5をリリースしました。5カ月後、xAIはGrok-2とその縮小版であるGrok-2 miniのベータ版をリリースしました。Grok-2は、チャット、コーディング、推論機能がさらに強化され、視覚ベースのタスクのサポートも追加されています。

最新リリースのGrok 3とGrok 3 miniには、高度な推論機能とAIエージェント機能が搭載されています。

Llama

開発者：Meta社

リリース日：2024年12月（Llama 3.3）

パラメーター数：最大4,050億

コンテキスト・ウィンドウ：128,000トークン

ライセンス：オープンソース

アクセス：Meta、Hugging Face、Kggle

インプット：マルチモーダル（画像、テキスト）

アウトプット： テキスト

Llamaは、Meta AI社のLLMコレクションです。これらの自己回帰モデルは、最適化されたTransformerアーキテクチャーを実装しており、教師ありファイン・チューニングと人間によるフィードバックによる強化学習（RLHF）を適用した調整バージョンもあります。⁵

Llama 3コレクションは、Llama 2 LLMの後継バージョンで、次のモデルがあります。

● Llama 3.1

● Llama 3.2

● Llama 3.3

Llama 3.1

Llama 3.1には、80億パラメーターのモデルと、4050億パラメーターのフラッグシップ基盤モデルがあります。どちらも多言語テキストのみのモデルです。

Llama 3.2

Llama 3.2は、モバイル・デバイスやエッジ・デバイスにちょうどよい10億と30億という小さなパラメーター・サイズで提供されます。110億と900億のパラメーター・サイズは、画像、キャプション作成、画像推論、視覚認識に関する一般的な質問に答えるために最適化されたマルチモーダルLLMです。⁶

Llama 3.3

Llama 3.3は、700億パラメーターの多言語テキストのみのモデルです。Llama 3.1 405Bと同等、あるいはそれ以上の性能を備えながら、よりコスト効率に優れています。

Mistral社

開発者：Mistral AI社

リリース日：2024年7月（Mistral Large 2）

パラメーター数： 最大1,240億

コンテキスト・ウィンドウ：最大256,000トークン

ライセンス：Mistral Research License、 Mistral Commercial License、Apache 2.0

アクセス：La Plateforme、Amazon Bedrock、Microsoft Azure AI Studio、Google Cloud Vertex AI、IBM watsonx.ai

インプット：マルチモーダル（画像、テキスト）

アウトプット： テキスト

フランスに拠点を構えるMistral AI社は、以下のモデルを網羅したLLMスイートを提供しています。

● Mistral Large

● Mistral Small

● Codestral

● Pixtral Large

Mistral Large

Mistral Large 2は、Mistral AIのフラッグシップ・モデルです。1,230億のパラメーターと12万8,000トークンのコンテキスト・ウィンドウを備えています。コード生成、数学計算、推論において優れたパフォーマンスを発揮します。Mistral Large 2は、多言語サポートと関数呼び出し機能を備えています。

Mistral Small

Mistral Small 3は、240億パラメーターのよりコンパクトなバージョンです。このモデルは、応答速度の速い会話型AI、低遅延の関数呼び出し、そしてリソース制約のあるマシン上でのローカルな推論処理に適しています。Mistral Small 3はオープンソースで、Apache 2.0ライセンスの下でリリースされています。

Codestral

Codestral 25.01は、Mistral AIの最新世代のコーディング・モデルです。256,000トークンのコンテキスト長を特徴とし、コード補完、コード修正、コード生成、テスト生成などのタスクをサポートします。

Pixtral Large

Pixtral Largeは、1240億パラメーターのマルチモーダル・モデルです。Mistral Large 2をベースに構築され、画像理解機能も搭載しています。

o1

開発者：OpenAI社

リリース日：2024年9月（o1）、2025年1月（o3-mini）

パラメーター数：非公開

コンテキスト・ウィンドウ：最大200,000トークン

ライセンス： プロプライエタリー

アクセス：OpenAI API

インプット：マルチモーダル（画像、テキスト）

アウトプット： テキスト

AIモデルのo1シリーズには、o1とo1-miniがあります。OpenAI社のGPTモデルと比較して、o1 LLMはより高度な推論機能を備えています。o1とo1-miniはどちらも大規模強化学習によって訓練されており、応答前に「考える」ことができます。つまり、回答する前に長い思考連鎖を生成することができます。

o1 LLMは画像とテキストの両方のインプットに対応していますが、o1-miniはテキストのみに対応しています。⁷ o1と比較して、o1-miniは小型で高速、そしてコスト効率に優れています。また、STEM推論とコーディングにも優れています。

一方、o3-miniは最新の推論モデルです。o1-miniと同様に、コーディング、数学、科学に強みを持っています。関数呼び出しをサポートし、3つの推論努力オプション（低、中、高）を提供することで、より多くの推論努力を必要とする複雑な問題や、迅速な対応が求められ推論努力を少なく抑えられる単純な問題など、さまざまなシナリオに合わせて最適化できます。

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

エピソードに移動

Qwen

開発者： Alibaba Cloud社

リリース日：2024年9月（Qwen 2.5）、2025年1月（Qwen2.5-Max）

パラメーター数：最大720億

コンテキスト・ウィンドウ：最大100万トークン

ライセンス： オープンソース（Apache 2.0）、大規模モデル向けのプロプライエタリー

アクセス：Alibaba Cloud、Hugging Face

インプット： マルチモーダル（音声、画像、テキスト、動画）

アウトプット： テキスト

Qwenは、中国のクラウドコンピューティング企業Alibaba Cloud社が提供するLLMシリーズです。Qwenには、音声、コーディング、数学、視覚タスクに最適化された言語モデルとバリアントが含まれています。

Qwenでは、次のモデルを提供しています。

● Qwen 2.5

● Qwen Audio

● Qwen Coder

● Qwen Math

● Qwen VL

Qwen 2.5

Qwen2.5モデルは、多言語処理タスク用のデコーダー専用モデルです。パラメーター・サイズは、0.5、3、7、14、32、72億から選択できます。720億モデルなどの大規模モデルは、Alibaba独自のクラウド・プラットフォーム上のAPIアクセスを通じてのみ利用可能です。

Qwen2.5-Turboは、100万トークンという長いコンテキスト長と、より高速な推論速度を特徴としています。一方、Qwen2.5-Maxは、最新の大規模MoEモデルです。

Qwen Audio

Qwen 2 Audioは、音声ベースのタスク向けに特別に設計されています。この70億パラメーター・モデルは、音声の書き起こし、検知、分類、音声コマンドの処理、音楽要素の識別に使用できます。

Qwen Coder

Qwen2.5 Coderは、コード固有のLLMです。15億、70億、140億、320億のパラメーター・サイズのものがあります。

Qwen Math

Qwen 2 Mathは、数学に最適化されたLLMのコレクションです。これらのモデルは、高度な数学的推論や複雑な数学問題の解決に適しています。Qwen 2 Mathは、15億、70億、720億のパラメーター・サイズのものがあります。

Qwen VL

Qwen 2 VLは、視覚処理と自然言語理解を組み合わせた視覚言語モデルです。サンプル・ユースケースでは、視覚データから情報を抽出し、画像や動画のキャプションや要約を生成します。Qwen 2 VLは、20億、70億、720億のパラメーター・サイズのものがあります。

Stable LM

開発者：Stability AI社

リリース日： 2024年4月（Stable LM 2 12B）

パラメーター数：最大120億

コンテキスト・ウィンドウ：4,096トークン

ライセンス： Stability AICommunity LicenseまたはEnterprise License

アクセス：Stability AI、Hugging Face

インプット： テキスト

アウトプット： テキスト

Stable LMは、テキストから画像へのモデル Stable Diffusion の開発元である Stability AIが提供するオープンアクセス言語モデルのグループです。Stable LM 2 12B には120億のパラメーター、Stable LM 2 1.6Bには16億のパラメーターがあります。これらは、多言語データとコード・データ・ットでトレーニングされたデコーダーのみのLLMです。どちらのモデルにも、関数呼び出しとツールの使用が組み込まれています。

Stable Code 3Bは、コード関連のデータセットに合わせてファイン・チューニングされたもう1つのLLMです。30億のパラメーター・サイズの軽量モデルであるStable Code 3Bは、GPU非搭載デバイスでもリアルタイムで実行できます。