中国のスタートアップ企業DeepSeek社によるAIモデルDeepSeek-R1は、先週のリリースから数時間後、AIオープンソースプラットフォームHugging Faceで最もダウンロードされアクティブなモデルのチャートでトップに躍り出ました。また、このニュースは金融市場に衝撃を与え、投資家に対し、NVIDIA などのチップメーカーの評価や、アメリカのAI大手がAI事業に行っている巨額の投資を再考するよう促しました。
なぜこれほど話題になっているのでしょう。いわゆる「推論モデル」であるDeepSeek-R1は、数学やコーディングのタスクに関する特定のAIベンチマークにおいてOpenAIのo1と同等の性能を発揮するバーチャル・アシスタントで、トレーニングに使用されるチップの数がはるかに少なく、コストを約96％安価に抑えています。
IBM® AI Hardwareの主任リサーチ・サイエンティスト兼マネージャー、Kaoutar El Maghraouiは、「DeepSeekがAIの世界を間違いなく再構築し、オープンソースの野心と最先端のイノベーションで大手に挑戦します」と語っています。
一方、TikTokを所有する中国のテック大手のByteDance社は最近、独自の推論エージェントであるUI-TARSを発表しました。これはOpenAIのGPT-4o、AnthropicのClaude、GoogleのGeminiを特定のベンチマークで上回ると主張しています。ByteDance社のエージェントは、グラフィカル・インターフェースを読み取り、推論し、自律的に段階的なアクションを実行できます。
新興企業から大手企業まで、中国のAI企業はアメリカのライバル企業との差を縮めつつあるように見えるが、その大きな理由のひとつは、他の企業やソフトウェア開発者と基本的なソフトウェアコードをオープンソース化したり、共有したりすることに積極的であることです。「DeepSeekは、コミュニティー全体に非常に強力なモデルを普及させることができました」と、IBMのGraniteモデルのシニア・テクニカル・プロダクト・マネージャーであるAbraham Danielsは言います。DeepSeek-R1は、無制限の商用利用を許可するMITライセンスの下でHugging Faceで提供されています。「DeepSeekはAIの民主化を本当に加速させる可能性があります」と彼は言います。
昨年の夏、中国企業のKuaishou社は、OpenAIのSoraに似た、しかしすぐに一般に公開できるビデオ生成ツールを発表しました。Soraは昨年2月に発表されましたが、正式リリースは12月にようやく、そのすべての主要な機能にアクセスできるのはChatGPT Proのサブスクリプションが必要です。Hugging Faceの開発者は、中国のテクノロジー大手のTencent社とAlibaba社から新たに公開されたオープンソースモデルを積極的に取り入れています。Meta社はLlamaモデルをオープンソース化していますが、OpenAIとGoogleはどちらもモデル開発に対して主にクローズド・ソースのアプローチを追求してきました。
オープンソースの恩恵に加えて、DeepSeek社のエンジニアは、米国の競合他社がシステムのトレーニングに使用している高度に特殊なNVIDIAチップのほんの一部しか使用していませんでした。例えばDeepSeekのエンジニアは、モデルリリース時に発表した研究論文によると、DeepSeek-V3モデルの訓練に2,000個のGPU（グラフィック処理ユニット）またはチップだけで十分だと述べています。
「本当に素晴らしいのは、DeepSeekモデルの推論能力です」とIBMフェローのKash Varshneyは言います。推論モデルは基本的に自らをVerifyまたはチェックし、これは一種の「メタ認知」または「思考の思考」であるとVarshneyは言います。「私たちは現在、これらのモデルに賢さを導入し始めています。これは大きな一歩です」
昨年の9月にOpenAIがo1推論モデルをプレビューしたとき、推論モデルが話題になりました。推論を説明せずに答えを生成した以前のAIモデルとは異なり、複雑な問題をステップに分割することで解決します。推論モデルは、段階的に、または「思考の連鎖」方式で分析を反映するため、回答に数秒または数分かかる場合があります。
DeepSeek-R1は、思考連鎖推論と強化学習を組み合わせたもので、自律エージェントが人間のユーザーからの指示なしに試行錯誤を通じてタスクの実行を学習します。強化学習は、手動でラベル付けされたデータを使用して予測や分類を行う教師あり学習や、ラベルなしデータから隠れたパターンを発見して学習することを目的とした教師なし学習など、より一般的に使用される形式の学習とは異なります。
DeepSeek-R1は、モデルが正しいまたは誤った行動のラベル付き例で訓練されたり、隠れたパターンから情報を抽出することで推論能力を向上させるという前提に疑問を投げかけます。ミシガン州立大学の博士課程学生で、機械学習に関する数十本の論文を執筆しているYihua Zhang氏は述べています。「重要な仮説はシンプルでありながら大胆です」とZhang氏は言います。「モデルに正しさについて報酬を与えて、モデル自身に最適な考え方を考察することを発見してもらうことはできるでしょうか」
Zhang氏は、DeepSeekのような大規模な言語モデルの大規模なトレーニングについて、彼や他の人たちが特に顕著に感じたのは、「モデルは実際に「なるほど」の瞬間を示し始め、一歩下がって間違いを見つけ、自動的に修正する」ことだと言います。
DeepSeekを取り巻く業界は、価格が低いことに起因しています。DeepSeek-V3はクリスマスにリリースされ、トレーニング費は550万米ドルで、試す開発者にとってははるかに安価であると、同社が発表した技術報告書は示しています。IBMの特別エンジニアであるChris Hayは、「彼らがモデルのコストのために何をしたのか、そしてトレーニングにどれだけの時間がかかったのか、本当に印象的です」と述べています。
しかし、この低価格がすべてではない可能性があると、IBM® ResearchのGraniteテクニカル製品管理ディレクターであるKate Souleは述べています。550万米ドルというコストは、「必要なコンピューティングのほんの一部に過ぎません」と同氏は言います。「強化学習、データ抽象化、ハイパーパラメーター検索のコンピューティング・コストなど、オープンソース・モデルであっても企業が独自に保つコストの詳細は含まれていません」とSoulは言います。
しかし、DeepSeekが、トレーニングに必要な参考情報が大幅に削減される、専門家混合（MoE）アーキテクチャーを使用することで、より高いコスト効率を実現したことは疑いの余地がありません。MoEアーキテクチャーでは、AIモデルを個別のサブネットワーク（または「専門家」）に分割し、それぞれがインプットのサブセットに特化します。このモデルは、ニューラル・ネットワーク全体をアクティブ化するのではなく、特定のタスクに必要な専門家のみをアクティブ化します。その結果、MoEアーキテクチャーは事前トレーニング中の計算コストを大幅に削減し、推論時間中の性能を高速化します。フランスの先駆的なAI企業であるMistral社や IBM など世界中の多くの企業が、この1年でMoEアーキテクチャーを普及させ、MoEとオープンソースを組み合わせることで効率性の向上を実現しました。
IBMのオープンソースGraniteモデル・シリーズ（MoEアーキテクチャーで開発）の場合、企業は事前トレーニング済みモデルを特定のアプリケーションやユースケースに適合させ、小規模なモデルを作成できるため、わずかなコストで最先端の性能を実現できます。非常に大きな機能をより小さなモデルに詰め込むということは、これらのモデルがスマートフォンや、カーコンピューターや工場現場のスマートセンサーなど、エッジで動作するその他のモバイルデバイスで使用できることを意味します。
大規模なモデルを取得し、それをリソースをあまり消費しない小さなモデルに蒸留するこのプロセスも、DeepSeekの成功に貢献しました。この中国のスタートアップ企業は、バナーとなるR1モデルのリリースと並行して、目的に合った小型モデルのシリーズもリリースしました。興味深いことに、彼らは、最初から小さなモデルの強化学習を使うよりも、より大きなモデルをより小さなモデルに蒸留したほうが、推論においてより良い結果を出すことを示しました。
特定のベンチマークでは古い競合他社に匹敵したり追いついたりしていますが、これらの新しい中国モデルは世界のAIランドスケープにどのような影響を与えるのでしょうか。「ベンチマークでの実際の性能だけではありません」とEl Maghraouiは言います。「重要なのは、安全かつ倫理的な方法でのモデルのエンドツーエンドの統合があるかどうかです。」その結果、DeepSeek-R1などが「人間のインタラクション、テクノロジー、アプリケーションを変革する」かどうかを判断するのは早すぎるとEl Maghraouiは述べています。
最終的には、「開発者による採用率によって、DeepSeekのモデルの人気が決まります」とDanielsは言います。さらに、「彼らがモデルについて明らかにするユースケースを見ることは非常に興味深いでしょう」と彼は言います。
そして、IBMのVarshneyが考えているように、この世界的なAI競争では、地政学的な違いも重要ではないかもしれません。「いったんモデルがオープンソース化されると、そのモデルがオープンソース化されると、それがさまざまな点で重要になります」と彼は言います。
