DeepSeek：誇張の分類

共同執筆者

Senior Staff Writer, AI Models

IBM Think

2025年1月にDeepSeek-R1がリリースされてから、DeepSeekに関する記事が大量に書かれるようになりました。やや紛らわしいのですが、DeepSeekとは会社名であると同時に、同社が製造するモデル、およびそれらのモデルで実行されるチャットボットの名前でもありますAI環境の劇的な変化に関する報道の量と経済面の興奮を考えると、事実と推測、推測とフィクションを区別するのは難しいかもしれません。

以下は、DeepSeekに関する他の記事を整理し、シグナルとノイズを区別し、大げさな前評判や誇張表現を無視するのに役立つ簡単なガイドです。まず、会社の簡単な沿革を伝え、DeepSeekの各新モデルの違いについて触れ、最後に、最も興味深いイノベーションを（あまり専門的になりすぎないように注意しながら）詳しく説明します。

ここで取り上げる内容は以下のとおりです。

DeepSeekとは
DeepSeek-R1とはファイン・チューニングプロセス（「R1」）と、それを使ってファイン・チューニングされた大規模言語モデル（LLM）であるDeepSeek-V3について説明します。
DeepSeek-V3とは他のLLMとの違いについて説明します。
DeepSeek-R1にかかるコストいくつかの大きな誤解を解きします。
DeepSeek-R1-Distillとは名前に反して、R1-DistillモデルはR1とは根本的に異なります。
これを知るべき理由見出しがいかに誤解を招きやすいかについて説明します。
次に登場するテクノロジーは何か。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

DeepSeekとは。

DeepSeek社は、中国の杭州に拠点を置くAI研究所です。同時に、同研究所が開発するオープン・ウェイトの生成AIモデルの名前でもあります。2025年1月下旬、同社のDeepSeek-R1 LLMは、OpenAI社、Anthropic社、Google社のトップクラスの独自モデルに匹敵するパフォーマンスを、大幅に低い価格で提供することに成功したことで、技術および金融ニュースとして大々的に報道されました。

DeepSeek社の起源は、アルゴリズム取引戦略に重点を置く3人のコンピューター科学者によって2016年に設立された中国のヘッジファンド、High-Flyer社に端を発します。同社は2019年にトレーディング業務からの収益を使ってAI主導の子会社High-Flyer AI社を設立し、ディープラーニング・トレーニング・インフラに2,800万米ドルを投資し、2021年にはその投資額を5倍に増やしたと報じられています。

2023年までに、High-Flyer社のAI研究は、AI、より具体的には汎用人工知能（AGI）の開発に特化した別の組織の設立を必要とするほどに成長しました。その結果生まれた研究室はDeepSeekと名付けられ、High-Flyer社が主な投資家となりました。DeepSeek社は、2023年11月のDeepSeek-Coderを皮切りに、主に数学とコーディングのパフォーマンスに重点を置いた、評価の高い一連のオープンウェイトモデルを開発してきました。

2024年12月、同社はDeepSeek-R1のベースとなるLLMである「DeepSeek-V3」をリリースしました。DeepSeek-V3とDeepSeek-R1の画期的なパフォーマンスにより、DeepSeek社は、今後の生成AI開発における予想外のリーダーとしての地位を確立しました。

DeepSeek-R1とは

DeepSeek-R1は、ユーザーに提供する最終的な「アウトプット」を決定する前に、広範な段階的な思考の連鎖（CoT）プロセスを生成するために、LLM（DeepSeek-V3）をファイン・チューニングして作成された推論モデルです。その他の推論モデルには、OpenAI社のo1（GPT-4oベース）とo3、Google社のGemini Flash 2.0 Thinking（Gemini Flashベース）、Alibaba社のオープンなQwQ（「Qwen with Questions」）（Qwen2.5モデルベース）などがあります。

推論モデルの背後にある直感は、「段階的に考える」というフレーズを追加するだけでモデルのアウトプットが大幅に改善されることを実証した初期の研究から来ています。ⁱGoogle社のDeepMindのその後の研究では、テスト時のコンピューティング（アウトプットを生成するために使用されるリソースの量）を拡大すると、トレーニング時のコンピューティング（モデルのトレーニングに使用されるリソース）を拡大するのと同じくらいモデルのパフォーマンスが向上する可能性があると理論づけられました。

推論モデルはより遅く、より高価ですが（最終的な応答について「考える」ために使用されるすべてのトークンを生成（および支払い）する必要があり、それらのトークンは利用可能なコンテキスト・ウィンドウを消費します）、OpenAI社はo1のリリース以来、最先端のパフォーマンスの先頭に立ってきました。最も注目すべきは、計画と事前の検討を優先するようにモデルをトレーニングすることに重点が置かれているため、これまでLLMでは対応できなかった複雑な数学や推論の問題を含む特定のタスクに熟練している点です。

推論モデルの詳細については、心理学者からAIエンジニアに転身したMaarten Grootendorst氏によるこの有用なビジュアル・ガイドをご覧ください。

DeepSeek-R1が重要な理由

DeepSeek-R1のパフォーマンスは、数学、コード、推論タスクにおいて、OpenAI社のo1やAnthropic社のClaude 3.5 Sonnetなどの主要なモデルに匹敵します。どのモデルが「最良」であるかは主観的で状況によって異なりますが、オープンモデルとしては驚くべき偉業です。しかし、R1の最も重要な側面は、オープンソース・コミュニティーに公開したトレーニング手法です。

通常、標準的なLLMを未トレーニング状態からエンドユーザーが利用できる状態にするまでのプロセスは次のとおりです。

事前トレーニング：モデルは、自己教師あり学習を通じて言語パターンを学習します。
教師ありファイン・チューニング（SFT）：モデルは、ラベル付けされた例からそれらの言語パターンを適用する方法を学習します。
強化学習（RL）：モデルは、より具体的で抽象的な考慮事項に向かって誘導されます。標準的なチャット指向のモデルの場合、このステップでは通常、応答をより有益で無害なものにするために、人間からのフィードバックによる強化学習（RLHF）が必要になります。推論モデルの場合、RLはより深く長い「思考プロセス」を奨励するために使用されます。

o1などの独自の推論モデルの場合、この最終ステップの具体的な詳細は、通常、厳重に守られた企業秘密です。しかし、DeepSeek社はプロセスを詳細に説明した技術論文を公開しています。

DeepSeek-R1の仕組み

DeepSeek-V3を推論モデルに変換する最初の試みでは、DeepSeek社はSFTをスキップし、事前トレーニングから単純な強化学習スキームに直接進みました。

モデル・クエリー：モデルに質問します。「<think>」と「</think>」の間に思考プロセスを、「<answer>」と「</answer>」の間に最終的な回答を出力するように指示します。
精度報酬：モデルの回答の品質（生成されたコードの実行品質など）に応じて報酬を与えます。
形式の報酬：応答で「<think>」と「<answer>」の形式を正しく使用したモデルに報酬を与えます。

結果として得られたモデル（「DeepSeek-R1-Zero」としてリリース）は、複雑な思考の連鎖を生成し、数学と推論のタスクで印象的なパフォーマンスを生み出す推論戦略を採用することを学習しました。このプロセスは簡単で、SFT用の高価なラベル付きデータを回避できました。残念ながら、技術論文で説明されているように、「DeepSeek-R1-Zeroは、無限の繰り返し、読みにくさ、言語の混在などの課題に直面」しています。

R1-Zeroの後継であるDeepSeek-R1をトレーニングするために、DeepSeek社はプロセスを修正しました。

「コールド・スタート」を回避するために、従来のSFTから開始しました
言語の混在を避けるために追加の報酬項を備えたR1-Zeroスタイルの強化学習を使用しました
結果として得られたRL調整モデル（およびDeepSeek-V3ベース・モデル）を使用して、さらに800,000個のSFTサンプルを生成しました
SFTをさらに追加しました
R1-Zeroスタイルの強化学習をさらに追加しました
従来の人間からのフィードバックによる強化学習（RLHF）を使用しました

しかし、そのファイン・チューニング・プロセスは全体の半分を物語るに過ぎません。残りの半分は、R1の基本モデルであるDeepSeek-V3です。

DeepSeek-V3とは

DeepSeek-R1のバックボーンであるDeepSeek-V3は、テキストのみの6,710億個（671B）パラメーターのMixture of Experts（MoE）言語モデルです。特に数学、推論、コーディングのタスクに関しては、2025年2月時点で利用可能なオープンソースLLMの中で最も有能であると言えるでしょう。さらに重要なのは、他の主要なLLMよりも大幅に速く、安価に使用できることです。

6,710億個もパラメーターがあることは、巨大なモデルであることを意味します。ちなみに、Meta社が2024年7月にDeepSeek-V3より40％小さいLlama 3.1 405Bをリリースしたとき、同社の公式発表ではこれを「世界最大かつ最も高性能なオープン利用可能な基盤モデル」と表現していました。ⁱⁱオリジナルのChatGPTモデルであるGPT-3.5には1,750億個のパラメーターがありました。OpenAI社、Anthropic社、Google社を含むほとんどの大手開発者が、独自のモデルのパラメーター数を開示していないことは注目に値します。

通常、パラメーター数が増えると、モデルの知識と複雑さの「容量」が増加します。パラメーターが増えると、モデルを調整する方法が増えるため、トレーニング・データの隅々まで適合する能力が向上します。しかし、モデルのパラメーター数を増やすと計算要件も増加し、速度が遅くなり、コストも高くなります。

では、DeepSeek-V3（そしてDeepSeek-R1）はどのようにして高速かつ安価を実現できたのでしょうか。答えは主に、Mixture of Expertsアーキテクチャーと、DeepSeek社がそれをどのように変更したかにあります。

Mixture of Experts（MoE）モデルとは

Mixture of Experts（MoE）アーキテクチャーは、ニューラル・ネットワークの層を個別のサブネットワーク（またはExpertネットワーク）に分割し、トークンを選択した「Expert」にルーティングするゲーティング・ネットワークを追加します。トレーニング中に、各「Expert」は最終的に特定の種類のトークンに特化します。例えば、1人のExpertは句読点に特化し、別のExpertは前置詞を処理するように学習します。そして、ゲーティング・ネットワークは各トークンを最も適切なExpertにルーティングすることを学習します。

MoEモデルは、各トークンのすべてのモデル・パラメーターをアクティブ化するのではなく、そのトークンに最適な「Expert」のみをアクティブ化します。DeepSeek-V3の合計パラメーター数は6710億個ですが、アクティブなパラメーター数は370億個だけです。言い換えれば、読み取りまたは出力するトークンごとに、6,710億個のパラメーターのうち370億個のみが使用されます。

適切に実行すれば、このMoEアプローチは、合計パラメーター数の容量とアクティブなパラメーター数の効率のバランスをとることができます。大まかに言えば、これこそDeepSeek-V3が大規模モデルの機能と小規模モデルの速度の両方を実現する仕組みです。

Mistral AI社が2023年後半にMixtral 8x7Bをリリースし、GPT-4がMoEであると噂されたとき、MoEは大きな注目を集めました。一部のモデル・プロバイダー（特にIBM^® Granite、Databricks社、Mistral社、DeepSeek社）はそれ以降もMoEモデルの開発を継続していますが、多くのプロバイダーは従来の「高密度」モデルに引き続き注力しています。

しかい、それほど素晴らしいのに、MoEがもっと普及しない理由は何でしょうか。これには2つの簡単な理由があります。

MoEはより複雑なため、トレーニングやファイン・チューニングもより困難になります。
また、MoEアーキテクチャーは計算コストを削減しますが、メモリー・コストは削減しません。すべてのパラメーターが一度にアクティブになるわけではありませんが、特定のトークンに対してパラメーターがアクティブになる場合に備えて、すべてのパラメーターをメモリーに保存する必要があります。したがって、MoEは同じサイズの高密度モデルと同じ量のRAMを必要とし、これが依然として大きなボトルネックとなっています。

DeepSeekのMoEが他のモデルと異なる点

DeepSeek-V3は、基本的なMoEアーキテクチャーに数多くの巧妙なエンジニアリング変更を加えており、安定性を高めながらメモリー使用量を減らし、計算要件をさらに削減します。これらの変更の一部は、2024年5月に前身のDeepSeek-V2で導入されました。注目すべき3つの新技術は次のとおりです。

Multi-head Latent Attention（MLA）

LLMを動かす注意メカニズムでは、各トークンが他のトークンとどのように関連しているかを計算するために、膨大な数の行列乗算（図ではよく「matmul」と略されます）が必要になります。入力から最終出力に移行するときに、これらの中間計算はすべてメモリーに保存される必要があります。

DeepSeek-V2で初めて導入されたMulti-head Latent Attention（MLA）は、各行列を2つの小さな行列に「分解」します。これにより、乗算の回数は2倍になりますが、メモリーに保存する必要があるすべてのもののサイズは大幅に削減されます。言い換えれば、メモリー・コストは下がりますが（計算コストは増加します）、これは、計算コストがすでに低い（ただしメモリー・コストが高い）MoEにとって素晴らしいメリットです。

FP8（浮動小数点8ビット）でのトレーニング

つまり、DeepSeek-V3の各パラメーターの特定の値は、通常よりも少ない小数点で表されます。これにより精度は低下しますが、速度が向上し、メモリ使用量がさらに削減されます。通常、モデルはより高い精度（多くの場合16ビットまたは32ビット）でトレーニングされ、その後FP8まで量子化されます。

マルチトークン予測（MTP）

マルチトークン予測とは、その名の通り、一度に1つのトークンのみを予測するのではなく、モデルが事前に次のトークンのいくつかも予測するというものです。これは言うほど簡単ではありません。

DeepSeek-R1はわずか550万ドルで完成したのか

これに対する答えは「ノー」です。正確に言えば、DeepSeek社はDeepSeek-V3の最終的な事前トレーニングに約557万6千米ドルを費やしたと報告されています。しかし、その数字は文脈から大きく外れて解釈されています。

DeepSeek社は、DeepSeek-R1を生み出すためにデータと計算にどれだけの費用を費やしたかを発表していません。広く報道されている「600万ドル」という数字は、DeepSeek-V3に限ったものです。

さらに、最終的な事前トレーニング実行コストのみを引用することは誤解を招きます。IBM Graniteテクニカル・プロダクト・マネジメント・ディレクターのKate Souleは、Mixture of Expertsポッドキャストのエピソードで次のように述べています。「これは、マラソンを走るとしたら、走る距離は「その」42.195kmだけだと言っているようなものです。現実には、その1つのレースに向けて、何カ月もトレーニングし、練習し、何百、何千キロも走ることになります」。

DeepSeek-V3の論文でも、557万6千米ドルは、NVIDIA H800 GPUの平均レンタル価格に換算すると、最終的なトレーニング実行にかかる費用の推定額にすぎないことが明確にされています。事前の調査、実験、データにかかるコストはすべて除外されます。また、実際のトレーニング・インフラストラクチャーも除外されています（調査分析会社であるSemiAnalysis社のレポートによると、DeepSeek社は2023年以降、GPUに5億ドル以上を投資していると推定されています）。また、従業員の給与、施設、その他の一般的な事業経費もこの計算から除外されています。

なお、その規模と能力を持つモデルの事前トレーニング実行に557万6千米ドルしか費やしていないというのは、それだけでも驚きです。参考のために比較すると、同じSemiAnalysis レポートでは、Anthropic社のClaude 3.5 Sonnet（2025年初頭時点で世界最強のLLMの候補）の事前トレーニングには数千万米ドルのコストがかかったと推測されています。同じ設計効率により、DeepSeek-V3は競合製品よりも大幅に低いコスト（およびレイテンシー）で運用できます。

一方、劇的なパラダイムシフトが起こった、あるいは西洋のAI開発者が何の理由もなく何十億ドルも費やし、今では総額7桁の低いコストで最先端のモデルを開発できるという考えは誤りです。

DeepSeek-R1-distillモデル

DeepSeek-R1は印象的ですが、結局のところ、巨大なモデルであるDeepSeek-V3のバージョンです。効率性は高いものの、多くのユースケースでは依然として大きすぎてRAMを大量に消費します。

DeepSeekは、DeepSeek-V3の小型バージョンを開発してそれらのモデルをファイン・チューニングするのではなく、より直接的で再現可能なアプローチを採用しました。つまり、QwenおよびLlamaモデル・ファミリーの小型オープンソース・モデルで、知識蒸留を使用して、DeepSeek-R1のように動作するようにしました。同社はこれらのモデルを「DeepSeek-R1-Distill」と名付けました。

本質的に、知識蒸留はモデル圧縮の抽象的な形式です。知識蒸留では、トレーニング用データでモデルを直接トレーニングするのではなく、より大きな「教師モデル」がそのトレーニング用データを処理する方法をエミュレートするように「生徒モデル」をトレーニングします。生徒モデルのパラメーターは、教師モデルと同じ最終出力を生成するだけでなく、教師と同じ思考プロセス（中間計算、予測、思考連鎖ステップ）も生成するように調整されます。

この名前にもかかわらず、「DeepSeek-R1-Distill」モデルは実際にはDeepSeek-R1ではありません。これらは、DeepSeek-R1のように動作するようにファイン・チューニングされたLlamaモデルとQwenモデルのバージョンです。R1-distillsはサイズで目を引きます、「本物の」DeepSeek-R1には及びません。

したがって、特定のプラットフォームが「R1」を提供または使用すると主張している場合は、どの「R1」について話しているのかを確認する必要があります。

DeepSeekに関する誤解を招くレポート

比類のない大衆の関心と馴染みのない技術的詳細の間で、DeepSeekとそのモデルをめぐる誇張は、いくつかの基本的な事実について重大な誤解を招くことがありました。

例えば、2月初旬には、カリフォルニア大学バークレー校のチームがわずか30米ドルでDeepSeek-R1を「再現」または「複製」したというニュースが大々的に報道されました。^{iii iv v}これは、もし本当なら信じられないほどの意味を持つ、非常に興味深い見出しですが、根本的に複数の点で不正確です。

バークレー校のチームはR1のファイン・チューニング技術を再現していません。正確には、DeepSeekの技術論文のガイドラインに従い、R1-ZeroのRLのみのファイン・チューニング手法を再現しました。
また、DeepSeek-R1（およびDeepSeek-R1-Zero）のバックボーンとして機能する671Bパラメーター・モデルであるDeepSeek-V3をファイン・チューニングしませんでした。代わりに、小さなオープンソースのQwen2.5モデルをファイン・チューニングしました（そして、1.5B、3B、7Bのバリアントで成功を収めました）。当然ながら、1.5Bパラメーター・モデルは文字どおり数百倍も小さいため、671Bパラメーター・モデルよりも、1.5Bパラメーター・モデルをファイン・チューニングする方がはるかに安価です。
R1-Zeroにヒントを得た小型モデルのパフォーマンスを、単一の数学特有のタスクでのみテストしたに過ぎません。エンジニアのJiaya Pan氏が明らかにしたように、研究チームは実験でコードや一般的な推論には触れませんでした。

つまり、カリフォルニア大学バークレー校のチームは、30米ドルでDeepSeek-R1を再現したわけではありません。単に、DeepSeekの実験的な強化学習のみのファイン・チューニングアプローチであるR1-Zeroを使用して、小さなモデルに複雑な数学の問題を解く方法を教えることができることを示しただけです。もちろん、この成果は興味深く、印象的で、重要です。しかし、DeepSeekのモデル提供についてかなり詳細に理解していなければ、またはそれを追及する時間がなければ（多くの忙しい読者（および記者）には時間がありません）、誤った考えを抱きがちです。

今後起こりそうなこと

開発者やアナリストがこれらのモデルに多くの時間を費やすにつれて、おそらく今ほどの誇張はなくなっていくと考えられます。IQテストだけでは従業員を雇用するのに十分ではないのと同じように、未加工のベンチマーク結果だけでは、特定のユースケースに対してどのモデルが「最適」であるかを判断するのに十分ではありません。モデルには、人間と同様に、理解するのに時間のかかる無形の長所と短所があります。

したがって、正式な設定でこれらの新しいDeepSeekモデルの長期的な有効性と実用性を判断するには、しばらく時間がかかるでしょう。『WIRED』誌が1月に報じたように、DeepSeek-R1はセキュリティーとジェイル・ブレイクのテストで低い成績を残しました。R1またはV3をほとんどの企業で安全に使用できるようにするには、これらの懸念に対処する必要があるでしょう。

一方で、新しいモデルが次々と登場しており、最先端技術をさらに押し進めていきます。DeepSeekのモデルと比較される主要なクローズドソース・モデルであるGPT-4oとClaude 3.5 Sonnetが、生成AIの観点から見れば一昔前とみなされる昨年の夏に初めてリリースされたことを考えてみてください。R1のリリースに続いて、Alibaba社は、DeepSeek-V3を全面的に上回る独自の大規模なオープンソースMoEモデルであるQwen2.5-Maxのリリースが間近に迫っていることを発表しました。^viおそらく、他のプロバイダーもこれに追随するでしょう。

最も重要なのは、業界とオープンソース・コミュニティーが、DeepSeekがもたらした刺激的な新しいアイデアを試し、新しいモデルや技術に統合したり適応させたりすることです。オープンソース・イノベーションの素晴らしさは、「潮が満ちればすべての船が浮かぶ」ことにあります。

AI Academy