生成AIのブームにより、その原動力である大規模言語モデル(LLM)に注目が集まっています。すでに数十種類のLLMが存在していますが、テクノロジーの急速な進歩に伴い、こうした人工知能(AI)モデルが次々と登場しています。
例えば、自動車業界に目を向けてみましょう。世界中の何百もの自動車メーカーが、多様な消費者ニーズに応える独自のモデルを展開しています。自動車もまた、ガソリン車から多くのスマート機能を備えた電気自動車へと、時代とともに進化してきました。
LLMについても同様です。これらのAIシステムは、膨大な量のデータセットでトレーニングされた複数のニューラル・ネットワーク層で構成された基盤モデルとして始まりました。
ディープラーニング手法を採用して、自然言語処理(NLP)と自然言語理解(NLU)のタスクを実行します。一方、その機能は向上しており、エージェント型AI機能と推論が含まれるようになりました。
この急速な進化は、LLMの状況が常に変化していることを意味します。AI開発者は、この急速な進歩に対応するために、モデルを継続的に更新したり、場合によっては新しいモデルを組み込んだりする必要があります。
コンテンツの要約、機械翻訳、感情分析、テキスト生成などのNLPおよびNLUタスクは引き続き主流ですが、AI開発者は特定のユースケースに合わせてモデルをカスタマイズしています。
例えば、一部のLLMはコード生成専用に作成されていますが、他のLLMはビジョン言語タスクを処理するために作成されています。
すべてのLLMを挙げることは不可能ですが、組織が選択肢を絞り込み、どのモデルがニーズを満たすかを検討する際に役立つ、最新かつ人気のある大規模言語モデルのリストを以下に示します。
開発者: Anthropic社
リリース日: 2025年2月(Claude 3.7 Sonnet)
パラメーター数:非公開
コンテキスト・ウィンドウ:200,000トークン
ライセンス: プロプライエタリー
アクセス: Anthropic API、Amazon Bedrock、Google クラウド Vertex AI
インプット:マルチモーダル(画像、テキスト)
アウトプット: テキスト
Claudeは、Transformerアーキテクチャーに基づくLLMファミリーです。これは、同名の対話型AIアシスタントを支える大規模モデルです。Claudeの設計は、AIの安全性を重視し、AIバイアスなどの有害な動作を低減するAI憲法原則に基づいています。
Claudeファミリーは、次の3つのAIモデル で構成されています。
● Claude Haiku
● Claude Sonnet
● Claude Opus
Claude 3.5 Haikuは最速のモデルです。カスタマー・サービスのチャットボットや、ソフトウェア開発ワークフローを高速化するコード補完など、低遅延のユースケースに最適です。
Claude 3.7 Sonnetは、Anthropic社が「これまでで最もインテリジェントなモデル」と呼ぶものです。この推論モデルは「拡張思考」モードを備えており、応答前に自己反省することができます。Anthropic APIを使用するユーザーは、モデルの思考時間を指定することもできます。
Claude 3.7 Sonnetは、コード生成、コンピューターの使用(LLMが人間と同じようにコンピューターを使用できるようにする)、視覚データからの情報の抽出、質問への回答など、より具体的なタスク用に実装できます。
Claude 3 Opusは3つの中で最も強力なモデルです。詳細な分析や、複数のステップで構成されるより長く複雑なタスクを処理できます。
開発者:Cohere社
リリース日: 2024年4月(Command R+)、2024年12月(Command R7B)
パラメーター数:最大1,040億
コンテキスト・ウィンドウ:128,000トークン
ライセンス: プロプライエタリー
アクセス: Cohere API、Amazon Bedrock、Microsoft Azure AIStudio、Oracle Cloud Infrastructure Generative AI
インプット: テキスト
アウトプット: テキスト
Commandは、Cohereの主力言語モデルです。エンタープライズ向けLLMファミリーには、以下のモデルが含まれています。
● Command R
● Command R+
● Command R7B
Command Rは、320億のパラメーターを備えた多言語テキスト生成モデルです。1 応答に引用を提供することで、検索拡張生成(RAG) 能力を基盤とするようにトレーニングされています。Command Rは、対話型ツールとしても使用できます。
Command R+は、1,040 億のパラメーターを備えたより強力なバージョンです。2複雑なRAG関数と複数のステップが必要なツールの使用を処理できるため、AIエージェントは、外部ツールを呼び出して、最新情報の収集や知識ベースの更新を行うことができます。
Command R7Bは、パラメーター数が70億の最小かつ最速のモデルです。CPUベースのデプロイメント、ローエンドのGPU、その他のエッジデバイスに最適で、デバイス上での推論にも実装できます。
開発者: DeepSeek社
リリース日:2025年1月
パラメーター数:6,710億
コンテキスト・ウィンドウ:128,000トークン
ライセンス:オープンソース(MIT License)
アクセス: DeepSeek API、Hugging Face
インプット:テキスト
アウトプット: テキスト
DeepSeek-R1は、中国のAIスタートアップ企業であるDeepSeek社のオープンソースの推論モデルです。これは、Mixture of Experts(MoE) 機械学習アーキテクチャーを使用し、大規模な強化学習を使用してトレーニングされており、推論能力が向上しています。
DeepSeek-R1は、特定のLLMベンチマークにおいて、OpenAIの o1シリーズの推論モデルと同等以上の性能があります。DeepSeek-R1 は知識蒸留も使用し、はるかに大規模なDeepSeek-R1 LLMによって生成された推論データを使用して、いくつかの小規模なLlamaモデルとQwenモデルをファイン・チューニングしました。
結果として得られた精製モデルは、元のモデルの推論能力を強化し、他の大規模なモデルよりもパフォーマンスが向上しています。3
開発者:Technology Innovation Institute
リリース日:2024年12月(Falcon 3)
パラメーター数:最大1,800億
コンテキスト・ウィンドウ:最大32,000トークン
ライセンス:オープンソース
アクセス:Hugging Face
インプット: テキスト
アウトプット: テキスト
Falconは、アラブ首長国連邦の研究所Technology Innovation Institute(TII)の研究者によって開発されたオープンソースモデル群です。これらのモデルは、TII独自のRefinedWeb(フィルタリングされた英語のウェブデータを含む大規模なデータセット)を使用してトレーニングされました。
ファルコンは次のLLMで構成されています。
● Falcon 2
● Falcon 3
● Falcon Mamba 7B
その他の以前の大型のFalconバージョンには、パラメーター数が400億のFalcon 40Bと、パラメーター数が1,800億のFalcon 180Bがあります。
Falcon 2 11Bは、パラメーター数が110億の因果デコーダーのみのモデルです。多言語サポートを備え、近々、視覚から言語への変換機能も搭載される予定です。
Falcon 3はデコーダーのみの設計を採用し、10億、30億、70億、100億の軽量パラメーター・サイズで提供されます。前モデルを改良し、推論能力が向上しています。
Falcon Mamba 7Bは、一般的なLLM Transformerアーキテクチャーから逸脱した状態空間言語モデル(SSLM)です。Transformerモデルは、インプット・シーケンスで最も重要なトークンに「注意を集中」させるためのアテンション・メカニズムを使用します。ただし、 コンテキスト・ウィンドウが大きくなると、Transformerはより多くのメモリーと計算能力を必要とします。
SSLMは処理中に継続的に「状態」を更新し、選択アルゴリズムを用いてインプットに応じてパラメーターを動的に調整します。これにより、Falcon Mamba 7Bは追加メモリーを必要とせずに長いテキスト・シーケンスを処理し、コンテキストの長さに関係なく同じ時間で新しいトークンを生成することができます。
ライセンス: プロプライエタリー
アクセス: Gemini API、Google AIStudio、Google Cloud Vertex AI
インプット:マルチモーダル(オーディオ、画像、テキスト、動画)
アウトプット: テキスト
Geminiは、Google社のマルチモーダルモデルスイートです。また、同名の生成AIチャットボット(旧称Bard)にも採用されています。
Geminiは、Google社が開発したニューラル・ネットワーク・アーキテクチャーであるTransformerモデルを採用しており、BERT(Bidirectional Encoder Representations from Transformers)やPaLM 2(Pathways Language Model)など、同社のこれまでの基盤言語モデルをベースにしています。
最新バージョンのGemini 2.0は、Google社によると「エージェント時代に向けて開発」されています。Gemini 2.0には、以下のさまざまなバージョンがあります。
● Gemini 2.0 Flash
● Gemini 2.0 Flash-Lite
● Gemini 2.0 Pro
Gemini 2.0 Flashは、ツールの使用をサポートする軽量モデルです。近日中に画像生成とテキスト読み上げ機能などの機能が追加される予定です。
Gemini 2.0 Flash-Liteは、軽量でコスト効率に優れた従来の1.5 Flashの改良版です。速度とコストはそのままに、品質を向上させています。
Gemini 2.0 Proは、ツール利用機能と200万トークンという長いコンテキスト・ウィンドウにより、Google社がコーディングと複雑なプロンプトへの対応において最強のモデルと呼んでいるものです。まだ実験段階です。
開発者:OpenAI社
リリース日: GPT-4oは2024年5月、GPT-4o miniは2024年7月
パラメーター数:非公開
コンテキスト・ウィンドウ:128,000トークン
ライセンス: プロプライエタリー
アクセス: .NET、JavaScript、Python、TypeScriptを使用したOpenAI API
インプット: マルチモーダル(音声、画像、テキスト、動画)
アウトプット:マルチモーダル(オーディオ、画像、テキスト)
生成的事前学習済みTransformer(GPT)は、OpenAI社によって開発された大規模言語モデルのラインです。GPTには、次のLLMが含まれています。
● GPT-4o
● GPT-4o mini
GPT-4oは、多言語・マルチモーダルモデルです。最も先進的なLLMの一つであるGPT-4oは、音声、テキスト、ビジュアル・インプットを処理し、音声、画像、テキストを任意に組み合わせたアウトプットを生成することができます。
GPT-4 TurboおよびGPT-4の前身モデルと比べてパフォーマンスが向上しています。GPT-4o は、OpenAI社のChatGPT生成AIチャットボットを支える最新のLLMです。
GPT-4o miniは、画像とテキストのインプットを受け付け、テキスト・アウトプットを生成する、より小型で手頃な価格のモデルです。パフォーマンス面ではGPT-3.5 Turboを上回っています。
開発者: IBM®
リリース日:2025年2月
パラメーター数: 最大340億
コンテキスト・ウィンドウ:128,000トークン
ライセンス:オープンソース(Apache 2.0)
アクセス: IBM® watsonx.ai、Hugging Face、LM Studio、 Ollama、Replicate
インプット:マルチモーダル(画像、テキスト)
アウトプット: テキスト
IBM® Graniteは、エンタープライズ対応のオープンソースLLMシリーズで、これには以下のモデルがあります。
● Granite 3.2
● Granite Vision
Granite 3.2には、RAGタスクのための強化された推論機能と高度な機能が組み込まれています。 20億および80億のパラメーター・サイズのものがあります。
Granite 3.2のトレーニング・データは、許容ライセンスのオープンソース・データセットと、長いコンテキストの問題を解決するためにカスタマイズされた、内部で収集された高品質の合成データセットを組み合わせたものです。
Granite Visionは、視覚的な文書理解に特化した20億のパラメーターを持つビジョン言語モデルです。グラフ、図、表から効率的にコンテンツを抽出できるように設計されており、構造化データ分析に適しています。
Graniteシリーズのその他のLLMは、次の特殊なモデルで構成されています。
● Granite Code
● Granite Guardian
● Granite Embedding
これらのデコーダー専用モデルは、コード編集、コード説明、コード生成などのコード生成タスク用に設計されています。Granite Codeモデルは、116のプログラミング言語で記述されたコードを使用してトレーニングされており、30億、80億、200億、340億のパラメーターのサイズのものがあります。
Granite Guardianモデルは、プロンプトとレスポンスにおけるリスクを検知するために設計されたLLMベースのガードレールです。Granite Guardianには、20億、30億、50億、80億のパラメーターのサイズのものがあります。
Granite Embeddingモデルは、セマンティック検索やRAGなどの検索ベースのアプリケーション専用に構築された文変換モデルです。
開発者:xAI社
リリース日:2025年2月(Grok 3)
パラメーター数: 3,140億
コンテキスト・ウィンドウ:128,000トークン
ライセンス: プロプライエタリー
アクセス:xAIAPI
インプット:マルチモーダル(画像、テキスト)
アウトプット: テキスト
GrokはxAIの言語モデルです。第一世代のLLMであるGrok-1は、3140億のパラメーターを持つMoEモデルです。その巨大なサイズのため、Grok-1のモデル重みの25%のみが、特定のインプット・トークンに対して有効となります。
2024年3月、xAIは128,000トークンのコンテキストウィンドウと強化された問題解決機能を備えたGrok-1.5をリリースしました。5カ月後、xAIはGrok-2とその縮小版であるGrok-2 miniのベータ版をリリースしました。Grok-2は、チャット、コーディング、推論機能がさらに強化され、視覚ベースのタスクのサポートも追加されています。
最新リリースのGrok 3とGrok 3 miniには、高度な推論機能とAIエージェント機能が搭載されています。
開発者:Meta社
リリース日:2024年12月(Llama 3.3)
パラメーター数:最大4,050億
コンテキスト・ウィンドウ:128,000トークン
ライセンス:オープンソース
アクセス:Meta、Hugging Face、Kggle
インプット:マルチモーダル(画像、テキスト)
アウトプット: テキスト
Llamaは、Meta AI社のLLMコレクションです。これらの自己回帰モデルは、最適化されたTransformerアーキテクチャーを実装しており、教師ありファイン・チューニングと人間によるフィードバックによる強化学習(RLHF)を適用した調整バージョンもあります。5
Llama 3コレクションは、Llama 2 LLMの後継バージョンで、次のモデルがあります。
● Llama 3.1
● Llama 3.2
● Llama 3.3
Llama 3.1には、80億パラメーターのモデルと、4050億パラメーターのフラッグシップ基盤モデルがあります。どちらも多言語テキストのみのモデルです。
Llama 3.2は、モバイル・デバイスやエッジ・デバイスにちょうどよい10億と30億という小さなパラメーター・サイズで提供されます。110億と900億のパラメーター・サイズは、画像、キャプション作成、画像推論、視覚認識に関する一般的な質問に答えるために最適化されたマルチモーダルLLMです。6
Llama 3.3は、700億パラメーターの多言語テキストのみのモデルです。Llama 3.1 405Bと同等、あるいはそれ以上の性能を備えながら、よりコスト効率に優れています。
開発者:Mistral AI社
リリース日:2024年7月(Mistral Large 2)
パラメーター数: 最大1,240億
コンテキスト・ウィンドウ:最大256,000トークン
ライセンス:Mistral Research License、 Mistral Commercial License、Apache 2.0
アクセス:La Plateforme、Amazon Bedrock、Microsoft Azure AI Studio、Google Cloud Vertex AI、IBM watsonx.ai
インプット:マルチモーダル(画像、テキスト)
アウトプット: テキスト
フランスに拠点を構えるMistral AI社は、以下のモデルを網羅したLLMスイートを提供しています。
● Mistral Large
● Mistral Small
● Codestral
● Pixtral Large
Mistral Large 2は、Mistral AIのフラッグシップ・モデルです。1,230億のパラメーターと12万8,000トークンのコンテキスト・ウィンドウを備えています。コード生成、数学計算、推論において優れたパフォーマンスを発揮します。Mistral Large 2は、多言語サポートと関数呼び出し機能を備えています。
Mistral Small 3は、240億パラメーターのよりコンパクトなバージョンです。このモデルは、応答速度の速い会話型AI、低遅延の関数呼び出し、そしてリソース制約のあるマシン上でのローカルな推論処理に適しています。Mistral Small 3はオープンソースで、Apache 2.0ライセンスの下でリリースされています。
Codestral 25.01は、Mistral AIの最新世代のコーディング・モデルです。256,000トークンのコンテキスト長を特徴とし、コード補完、コード修正、コード生成、テスト生成などのタスクをサポートします。
Pixtral Largeは、1240億パラメーターのマルチモーダル・モデルです。Mistral Large 2をベースに構築され、画像理解機能も搭載しています。
開発者:OpenAI社
リリース日:2024年9月(o1)、2025年1月(o3-mini)
パラメーター数:非公開
コンテキスト・ウィンドウ:最大200,000トークン
ライセンス: プロプライエタリー
アクセス:OpenAI API
インプット:マルチモーダル(画像、テキスト)
アウトプット: テキスト
AIモデルのo1シリーズには、o1とo1-miniがあります。OpenAI社のGPTモデルと比較して、o1 LLMはより高度な推論機能を備えています。o1とo1-miniはどちらも大規模強化学習によって訓練されており、応答前に「考える」ことができます。つまり、回答する前に長い思考連鎖を生成することができます。
o1 LLMは画像とテキストの両方のインプットに対応していますが、o1-miniはテキストのみに対応しています。7 o1と比較して、o1-miniは小型で高速、そしてコスト効率に優れています。また、STEM推論とコーディングにも優れています。
一方、o3-miniは最新の推論モデルです。o1-miniと同様に、コーディング、数学、科学に強みを持っています。関数呼び出しをサポートし、3つの推論努力オプション(低、中、高)を提供することで、より多くの推論努力を必要とする複雑な問題や、迅速な対応が求められ推論努力を少なく抑えられる単純な問題など、さまざまなシナリオに合わせて最適化できます。
リリース日:2024年9月(Qwen 2.5)、2025年1月(Qwen2.5-Max)
パラメーター数:最大720億
コンテキスト・ウィンドウ:最大100万トークン
ライセンス: オープンソース(Apache 2.0)、大規模モデル向けのプロプライエタリー
アクセス:Alibaba Cloud、Hugging Face
インプット: マルチモーダル(音声、画像、テキスト、動画)
アウトプット: テキスト
Qwenは、中国のクラウドコンピューティング企業Alibaba Cloud社が提供するLLMシリーズです。Qwenには、音声、コーディング、数学、視覚タスクに最適化された言語モデルとバリアントが含まれています。
Qwenでは、次のモデルを提供しています。
● Qwen 2.5
● Qwen Audio
● Qwen Coder
● Qwen Math
● Qwen VL
Qwen2.5モデルは、多言語処理タスク用のデコーダー専用モデルです。パラメーター・サイズは、0.5、3、7、14、32、72億から選択できます。720億モデルなどの大規模モデルは、Alibaba独自のクラウド・プラットフォーム上のAPIアクセスを通じてのみ利用可能です。
Qwen2.5-Turboは、100万トークンという長いコンテキスト長と、より高速な推論速度を特徴としています。一方、Qwen2.5-Maxは、最新の大規模MoEモデルです。
Qwen 2 Audioは、音声ベースのタスク向けに特別に設計されています。この70億パラメーター・モデルは、音声の書き起こし、検知、分類、音声コマンドの処理、音楽要素の識別に使用できます。
Qwen2.5 Coderは、コード固有のLLMです。15億、70億、140億、320億のパラメーター・サイズのものがあります。
Qwen 2 Mathは、数学に最適化されたLLMのコレクションです。これらのモデルは、高度な数学的推論や複雑な数学問題の解決に適しています。Qwen 2 Mathは、15億、70億、720億のパラメーター・サイズのものがあります。
Qwen 2 VLは、視覚処理と自然言語理解を組み合わせた視覚言語モデルです。サンプル・ユースケースでは、視覚データから情報を抽出し、画像や動画のキャプションや要約を生成します。Qwen 2 VLは、20億、70億、720億のパラメーター・サイズのものがあります。
開発者:Stability AI社
リリース日: 2024年4月(Stable LM 2 12B)
パラメーター数:最大120億
コンテキスト・ウィンドウ:4,096トークン
ライセンス: Stability AICommunity LicenseまたはEnterprise License
アクセス:Stability AI、Hugging Face
インプット: テキスト
アウトプット: テキスト
Stable LMは、テキストから画像へのモデル Stable Diffusion の開発元である Stability AIが提供するオープンアクセス言語モデルのグループです。Stable LM 2 12B には120億のパラメーター、Stable LM 2 1.6Bには16億のパラメーターがあります。これらは、多言語データとコード・データ・ットでトレーニングされたデコーダーのみのLLMです。どちらのモデルにも、関数呼び出しとツールの使用が組み込まれています。
Stable Code 3Bは、コード関連のデータセットに合わせてファイン・チューニングされたもう1つのLLMです。30億のパラメーター・サイズの軽量モデルであるStable Code 3Bは、GPU非搭載デバイスでもリアルタイムで実行できます。
1「Model Card for C4AI Command R 08-2024」、Hugging Face、アクセス日:2025年2月14日。
2「 Model Card for C4AI Command R+ 08-2024」、Hugging Face、アクセス日:2025年2月14日。
3「DeepSeek-R1: Incentivizing Reasoning Capability in LLM via Reinforcement Learning」、GitHub社、2025年1月23日。
4「Access the latest 2.0 experimental models in the Gemini app」、Google社、2025年2月5日。
5「Model Information」、GitHub社、2024年9月30日。
6「Model Information」、GitHub社、2024年9月30日。
7「o1 and o1-mini」、OpenAI、アクセス日:2025年2月14日。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。