2025年1月にDeepSeek-R1がリリースされてから、DeepSeekに関する記事が大量に書かれるようになりました。やや紛らわしいのですが、DeepSeekとは会社名であると同時に、同社が製造するモデル、およびそれらのモデルで実行されるチャットボットの名前でもありますAI環境の劇的な変化に関する報道の量と経済面の興奮を考えると、事実と推測、推測とフィクションを区別するのは難しいかもしれません。
以下は、DeepSeekに関する他の記事を整理し、シグナルとノイズを区別し、大げさな前評判や誇張表現を無視するのに役立つ簡単なガイドです。まず、会社の簡単な沿革を伝え、DeepSeekの各新モデルの違いについて触れ、最後に、最も興味深いイノベーションを(あまり専門的になりすぎないように注意しながら)詳しく説明します。
ここで取り上げる内容は以下のとおりです。
DeepSeek社は、中国の杭州に拠点を置くAI研究所です。同時に、同研究所が開発するオープン・ウェイトの生成AIモデルの名前でもあります。2025年1月下旬、同社のDeepSeek-R1 LLMは、OpenAI社、Anthropic社、Google社のトップクラスの独自モデルに匹敵するパフォーマンスを、大幅に低い価格で提供することに成功したことで、技術および金融ニュースとして大々的に報道されました。
DeepSeek社の起源は、アルゴリズム取引戦略に重点を置く3人のコンピューター科学者によって2016年に設立された中国のヘッジファンド、High-Flyer社に端を発します。同社は2019年にトレーディング業務からの収益を使ってAI主導の子会社High-Flyer AI社を設立し、ディープラーニング・トレーニング・インフラに2,800万米ドルを投資し、2021年にはその投資額を5倍に増やしたと報じられています。
2023年までに、High-Flyer社のAI研究は、AI、より具体的には汎用人工知能(AGI)の開発に特化した別の組織の設立を必要とするほどに成長しました。その結果生まれた研究室はDeepSeekと名付けられ、High-Flyer社が主な投資家となりました。DeepSeek社は、2023年11月のDeepSeek-Coderを皮切りに、主に数学とコーディングのパフォーマンスに重点を置いた、評価の高い一連のオープンウェイトモデルを開発してきました。
2024年12月、同社はDeepSeek-R1のベースとなるLLMである「DeepSeek-V3」をリリースしました。DeepSeek-V3とDeepSeek-R1の画期的なパフォーマンスにより、DeepSeek社は、今後の生成AI開発における予想外のリーダーとしての地位を確立しました。
DeepSeek-R1は、ユーザーに提供する最終的な「アウトプット」を決定する前に、広範な段階的な思考の連鎖(CoT)プロセスを生成するために、LLM(DeepSeek-V3)をファイン・チューニングして作成された推論モデルです。その他の推論モデルには、OpenAI社のo1(GPT-4oベース)とo3、Google社のGemini Flash 2.0 Thinking(Gemini Flashベース)、Alibaba社のオープンなQwQ(「Qwen with Questions」)(Qwen2.5モデルベース)などがあります。
推論モデルの背後にある直感は、「段階的に考える」というフレーズを追加するだけでモデルのアウトプットが大幅に改善されることを実証した初期の研究から来ています。iGoogle社のDeepMindのその後の研究では、テスト時のコンピューティング(アウトプットを生成するために使用されるリソースの量)を拡大すると、トレーニング時のコンピューティング(モデルのトレーニングに使用されるリソース)を拡大するのと同じくらいモデルのパフォーマンスが向上する可能性があると理論づけられました。
推論モデルはより遅く、より高価ですが(最終的な応答について「考える」ために使用されるすべてのトークンを生成(および支払い)する必要があり、それらのトークンは利用可能なコンテキスト・ウィンドウを消費します)、OpenAI社はo1のリリース以来、最先端のパフォーマンスの先頭に立ってきました。最も注目すべきは、計画と事前の検討を優先するようにモデルをトレーニングすることに重点が置かれているため、これまでLLMでは対応できなかった複雑な数学や推論の問題を含む特定のタスクに熟練している点です。
推論モデルの詳細については、心理学者からAIエンジニアに転身したMaarten Grootendorst氏によるこの有用なビジュアル・ガイドをご覧ください。
DeepSeek-R1のパフォーマンスは、数学、コード、推論タスクにおいて、OpenAI社のo1やAnthropic社のClaude 3.5 Sonnetなどの主要なモデルに匹敵します。どのモデルが「最良」であるかは主観的で状況によって異なりますが、オープンモデルとしては驚くべき偉業です。しかし、R1の最も重要な側面は、オープンソース・コミュニティーに公開したトレーニング手法です。
通常、標準的なLLMを未トレーニング状態からエンドユーザーが利用できる状態にするまでのプロセスは次のとおりです。
o1などの独自の推論モデルの場合、この最終ステップの具体的な詳細は、通常、厳重に守られた企業秘密です。しかし、DeepSeek社はプロセスを詳細に説明した技術論文を公開しています。
DeepSeek-V3を推論モデルに変換する最初の試みでは、DeepSeek社はSFTをスキップし、事前トレーニングから単純な強化学習スキームに直接進みました。
結果として得られたモデル(「DeepSeek-R1-Zero」としてリリース)は、複雑な思考の連鎖を生成し、数学と推論のタスクで印象的なパフォーマンスを生み出す推論戦略を採用することを学習しました。このプロセスは簡単で、SFT用の高価なラベル付きデータを回避できました。残念ながら、技術論文で説明されているように、「DeepSeek-R1-Zeroは、無限の繰り返し、読みにくさ、言語の混在などの課題に直面」しています。
R1-Zeroの後継であるDeepSeek-R1をトレーニングするために、DeepSeek社はプロセスを修正しました。
しかし、そのファイン・チューニング・プロセスは全体の半分を物語るに過ぎません。残りの半分は、R1の基本モデルであるDeepSeek-V3です。
DeepSeek-R1のバックボーンであるDeepSeek-V3は、テキストのみの6,710億個(671B)パラメーターのMixture of Experts(MoE)言語モデルです。特に数学、推論、コーディングのタスクに関しては、2025年2月時点で利用可能なオープンソースLLMの中で最も有能であると言えるでしょう。さらに重要なのは、他の主要なLLMよりも大幅に速く、安価に使用できることです。
6,710億個もパラメーターがあることは、巨大なモデルであることを意味します。ちなみに、Meta社が2024年7月にDeepSeek-V3より40%小さいLlama 3.1 405Bをリリースしたとき、同社の公式発表ではこれを「世界最大かつ最も高性能なオープン利用可能な基盤モデル」と表現していました。iiオリジナルのChatGPTモデルであるGPT-3.5には1,750億個のパラメーターがありました。OpenAI社、Anthropic社、Google社を含むほとんどの大手開発者が、独自のモデルのパラメーター数を開示していないことは注目に値します。
通常、パラメーター数が増えると、モデルの知識と複雑さの「容量」が増加します。パラメーターが増えると、モデルを調整する方法が増えるため、トレーニング・データの隅々まで適合する能力が向上します。しかし、モデルのパラメーター数を増やすと計算要件も増加し、速度が遅くなり、コストも高くなります。
では、DeepSeek-V3(そしてDeepSeek-R1)はどのようにして高速かつ安価を実現できたのでしょうか。答えは主に、Mixture of Expertsアーキテクチャーと、DeepSeek社がそれをどのように変更したかにあります。
Mixture of Experts(MoE)アーキテクチャーは、ニューラル・ネットワークの層を個別のサブネットワーク(またはExpertネットワーク)に分割し、トークンを選択した「Expert」にルーティングするゲーティング・ネットワークを追加します。トレーニング中に、各「Expert」は最終的に特定の種類のトークンに特化します。例えば、1人のExpertは句読点に特化し、別のExpertは前置詞を処理するように学習します。そして、ゲーティング・ネットワークは各トークンを最も適切なExpertにルーティングすることを学習します。
MoEモデルは、各トークンのすべてのモデル・パラメーターをアクティブ化するのではなく、そのトークンに最適な「Expert」のみをアクティブ化します。DeepSeek-V3の合計パラメーター数は6710億個ですが、アクティブなパラメーター数は370億個だけです。言い換えれば、読み取りまたは出力するトークンごとに、6,710億個のパラメーターのうち370億個のみが使用されます。
適切に実行すれば、このMoEアプローチは、合計パラメーター数の容量とアクティブなパラメーター数の効率のバランスをとることができます。大まかに言えば、これこそDeepSeek-V3が大規模モデルの機能と小規模モデルの速度の両方を実現する仕組みです。
Mistral AI社が2023年後半にMixtral 8x7Bをリリースし、GPT-4がMoEであると噂されたとき、MoEは大きな注目を集めました。一部のモデル・プロバイダー(特にIBM® Granite、Databricks社、Mistral社、DeepSeek社)はそれ以降もMoEモデルの開発を継続していますが、多くのプロバイダーは従来の「高密度」モデルに引き続き注力しています。
しかい、それほど素晴らしいのに、MoEがもっと普及しない理由は何でしょうか。これには2つの簡単な理由があります。
DeepSeek-V3は、基本的なMoEアーキテクチャーに数多くの巧妙なエンジニアリング変更を加えており、安定性を高めながらメモリー使用量を減らし、計算要件をさらに削減します。これらの変更の一部は、2024年5月に前身のDeepSeek-V2で導入されました。注目すべき3つの新技術は次のとおりです。
LLMを動かす注意メカニズムでは、各トークンが他のトークンとどのように関連しているかを計算するために、膨大な数の行列乗算(図ではよく「matmul」と略されます)が必要になります。入力から最終出力に移行するときに、これらの中間計算はすべてメモリーに保存される必要があります。
DeepSeek-V2で初めて導入されたMulti-head Latent Attention(MLA)は、各行列を2つの小さな行列に「分解」します。これにより、乗算の回数は2倍になりますが、メモリーに保存する必要があるすべてのもののサイズは大幅に削減されます。言い換えれば、メモリー・コストは下がりますが(計算コストは増加します)、これは、計算コストがすでに低い(ただしメモリー・コストが高い)MoEにとって素晴らしいメリットです。
つまり、DeepSeek-V3の各パラメーターの特定の値は、通常よりも少ない小数点で表されます。これにより精度は低下しますが、速度が向上し、メモリ使用量がさらに削減されます。通常、モデルはより高い精度(多くの場合16ビットまたは32ビット)でトレーニングされ、その後FP8まで量子化されます。
マルチトークン予測とは、その名の通り、一度に1つのトークンのみを予測するのではなく、モデルが事前に次のトークンのいくつかも予測するというものです。これは言うほど簡単ではありません。
これに対する答えは「ノー」です。正確に言えば、DeepSeek社はDeepSeek-V3の最終的な事前トレーニングに約557万6千米ドルを費やしたと報告されています。しかし、その数字は文脈から大きく外れて解釈されています。
DeepSeek社は、DeepSeek-R1を生み出すためにデータと計算にどれだけの費用を費やしたかを発表していません。広く報道されている「600万ドル」という数字は、DeepSeek-V3に限ったものです。
さらに、最終的な事前トレーニング実行コストのみを引用することは誤解を招きます。IBM Graniteテクニカル・プロダクト・マネジメント・ディレクターのKate Souleは、Mixture of Expertsポッドキャストのエピソードで次のように述べています。「これは、マラソンを走るとしたら、走る距離は「その」42.195kmだけだと言っているようなものです。現実には、その1つのレースに向けて、何カ月もトレーニングし、練習し、何百、何千キロも走ることになります」。
DeepSeek-V3の論文でも、557万6千米ドルは、NVIDIA H800 GPUの平均レンタル価格に換算すると、最終的なトレーニング実行にかかる費用の推定額にすぎないことが明確にされています。事前の調査、実験、データにかかるコストはすべて除外されます。また、実際のトレーニング・インフラストラクチャーも除外されています(調査分析会社であるSemiAnalysis社のレポートによると、DeepSeek社は2023年以降、GPUに5億ドル以上を投資していると推定されています)。また、従業員の給与、施設、その他の一般的な事業経費もこの計算から除外されています。
なお、その規模と能力を持つモデルの事前トレーニング実行に557万6千米ドルしか費やしていないというのは、それだけでも驚きです。参考のために比較すると、同じSemiAnalysis レポートでは、Anthropic社のClaude 3.5 Sonnet(2025年初頭時点で世界最強のLLMの候補)の事前トレーニングには数千万米ドルのコストがかかったと推測されています。同じ設計効率により、DeepSeek-V3は競合製品よりも大幅に低いコスト(およびレイテンシー)で運用できます。
一方、劇的なパラダイムシフトが起こった、あるいは西洋のAI開発者が何の理由もなく何十億ドルも費やし、今では総額7桁の低いコストで最先端のモデルを開発できるという考えは誤りです。
DeepSeek-R1は印象的ですが、結局のところ、巨大なモデルであるDeepSeek-V3のバージョンです。効率性は高いものの、多くのユースケースでは依然として大きすぎてRAMを大量に消費します。
DeepSeekは、DeepSeek-V3の小型バージョンを開発してそれらのモデルをファイン・チューニングするのではなく、より直接的で再現可能なアプローチを採用しました。つまり、QwenおよびLlamaモデル・ファミリーの小型オープンソース・モデルで、知識蒸留を使用して、DeepSeek-R1のように動作するようにしました。同社はこれらのモデルを「DeepSeek-R1-Distill」と名付けました。
本質的に、知識蒸留はモデル圧縮の抽象的な形式です。知識蒸留では、トレーニング用データでモデルを直接トレーニングするのではなく、より大きな「教師モデル」がそのトレーニング用データを処理する方法をエミュレートするように「生徒モデル」をトレーニングします。生徒モデルのパラメーターは、教師モデルと同じ最終出力を生成するだけでなく、教師と同じ思考プロセス(中間計算、予測、思考連鎖ステップ)も生成するように調整されます。
この名前にもかかわらず、「DeepSeek-R1-Distill」モデルは実際にはDeepSeek-R1ではありません。これらは、DeepSeek-R1のように動作するようにファイン・チューニングされたLlamaモデルとQwenモデルのバージョンです。R1-distillsはサイズで目を引きます、「本物の」DeepSeek-R1には及びません。
したがって、特定のプラットフォームが「R1」を提供または使用すると主張している場合は、どの「R1」について話しているのかを確認する必要があります。
比類のない大衆の関心と馴染みのない技術的詳細の間で、DeepSeekとそのモデルをめぐる誇張は、いくつかの基本的な事実について重大な誤解を招くことがありました。
例えば、2月初旬には、カリフォルニア大学バークレー校のチームがわずか30米ドルでDeepSeek-R1を「再現」または「複製」したというニュースが大々的に報道されました。iii iv vこれは、もし本当なら信じられないほどの意味を持つ、非常に興味深い見出しですが、根本的に複数の点で不正確です。
つまり、カリフォルニア大学バークレー校のチームは、30米ドルでDeepSeek-R1を再現したわけではありません。単に、DeepSeekの実験的な強化学習のみのファイン・チューニングアプローチであるR1-Zeroを使用して、小さなモデルに複雑な数学の問題を解く方法を教えることができることを示しただけです。もちろん、この成果は興味深く、印象的で、重要です。しかし、DeepSeekのモデル提供についてかなり詳細に理解していなければ、またはそれを追及する時間がなければ(多くの忙しい読者(および記者)には時間がありません)、誤った考えを抱きがちです。
開発者やアナリストがこれらのモデルに多くの時間を費やすにつれて、おそらく今ほどの誇張はなくなっていくと考えられます。IQテストだけでは従業員を雇用するのに十分ではないのと同じように、未加工のベンチマーク結果だけでは、特定のユースケースに対してどのモデルが「最適」であるかを判断するのに十分ではありません。モデルには、人間と同様に、理解するのに時間のかかる無形の長所と短所があります。
したがって、正式な設定でこれらの新しいDeepSeekモデルの長期的な有効性と実用性を判断するには、しばらく時間がかかるでしょう。『WIRED』誌が1月に報じたように、DeepSeek-R1はセキュリティーとジェイル・ブレイクのテストで低い成績を残しました。R1またはV3をほとんどの企業で安全に使用できるようにするには、これらの懸念に対処する必要があるでしょう。
一方で、新しいモデルが次々と登場しており、最先端技術をさらに押し進めていきます。DeepSeekのモデルと比較される主要なクローズドソース・モデルであるGPT-4oとClaude 3.5 Sonnetが、生成AIの観点から見れば一昔前とみなされる昨年の夏に初めてリリースされたことを考えてみてください。R1のリリースに続いて、Alibaba社は、DeepSeek-V3を全面的に上回る独自の大規模なオープンソースMoEモデルであるQwen2.5-Maxのリリースが間近に迫っていることを発表しました。viおそらく、他のプロバイダーもこれに追随するでしょう。
最も重要なのは、業界とオープンソース・コミュニティーが、DeepSeekがもたらした刺激的な新しいアイデアを試し、新しいモデルや技術に統合したり適応させたりすることです。オープンソース・イノベーションの素晴らしさは、「潮が満ちればすべての船が浮かぶ」ことにあります。
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
生成AI、機械学習、基盤モデルを事業活動に組み込んでパフォーマンスを向上させる方法をご紹介します。
ユースケースに最適なAI基盤モデルを選択する方法について説明します。
機械学習は、AIとコンピューター・サイエンスの一分野であり、データとアルゴリズムを使用してAIが人間の学習方法を模倣できるようにすることに重点を置いています。
強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
[i] 「Large language models are zero-shot reasoners」、arXiv社、2022年5月24日
[ii] 「Introducing Llama 3.1:Our most capable models to date」、Meta社、2024年7月24日
[iii] 「Team Says They’ve Recreated DeepSeek’s OpenAI Killer for Literally $30」、テクノロジー系ニュースメディア・サイト『Futurism』、 2025年1月30日
[iv] 「DeepSeek AI replicated for just $30 using Countdown game」、『The Independent』紙、2025年2月3日
[v] 「Berkeley Research Replicate DeepSeek R1’s Core Tech for Just $30」、 XYZ Labs社、2025年1月26日
[vi] 「Qwen2.5-Max:Exploring the Intelligence of Large-Scale MoE Model」、 Qwen、2025年1月28日