2025 年 1 月 20 日の見出しをご覧になった方は、空が落ちてくると思ったかもしれません。これは、中国拠点の DeepSeek がR1大規模言語モデル(LLM)をリリースし、その直後に最もダウンロードされ、アクティブなモデルの一つとなったためです。
興奮を引き起こしたのは、中国杭州に拠点を置き、自らの名を冠したモデルをリリースしているAI 研究室が、米国の主要モデルと比べて 560万米ドルというはるかに低いコストで、しかもコンピュートリソースやエヌビディア製チップへのアクセスもはるかに少ないモデルを構築したモデルを構築したという事実からでした。
人々はまるで時計仕掛けのように、多額の資金を投じる米国のAI企業の一部が取り残されてしまうのではないかと公然と懸念していました。DeepSeekは他の企業に比べてNVIDIAチップの使用量が少ないため、同社の株価が下落しました。しかし、これは半導体メーカーの運命について重大な懸念を抱かせたというよりも、ニュースに対する反射的な反応でした。
技術およびビジネス関連のレポーターは、このニュースをシステムに対する衝撃と捉えました。しかし、他のAI専門家や私にとって、DeepSeekの「R1」発表の唯一の驚きは、いかに誰もが驚いたように見えたかということでした。
このモデルは新しいものでしたが、DeepSeekはマーケットプレイスに新規に参入したわけではありません。同社は、特に12月にリリースされたV3モデルをはじめ、中国市場において価値あるオープンソース・モデルを数多く生み出してきた実績を持っています。実際、同社は付随する技術論文を公開し、これらのラボの構築方法を深く知りたい人向けの教育を提供しています。V3 モデルはさらに驚きでしたが、どうやら注目されなかったようです。
もちろん、DeepSeekのR1モデルも生成AI ツール の一例であり、AIツールがユーザーの要望に応答するだけでなく、独立してユーザーにサービスを提供するエージェント型AIの未来の基盤となり得ます。
IBMは意図的にこれらすべてのモデルと提携し、かつ使用していますが、オープンソース運動を強く支持し、そのエンジニアでもあります。R1のようなオープンソース・モデルが賞賛されることは、業界にとって素晴らしいことです。
DeepSeekが自社のモデルと同等かそれ以上のモデルを、しかもより有名なモデルの数分の1のコストで製造しているのを見るのは、大手企業にとって少し不快だったことは理解できます。しかし、それがオープンソース・コミュニティの目的です。
DeepSeek R1の発表は、金融市場が混乱を予測する一方で、AIの専門家は技術的な進歩と、より効率的で強力な新しいモデルにどうつながるかに興奮しているという2つの世界の物語を示しています。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
R1は、多くの人が知っていることを強化しただけであり、世界の他の企業もそれに追いつきつつあります。DeepSeekが、IBMやMetaなどを含め、オープンソース環境に貢献するすべての大きな業績の上に立っていることは明らかです。オープンソースモデルは、今後もイノベーションをリードし続けます。R1はシステムにとって最初は衝撃でしたが、全員がその存在からメリットを受けることになります。特に、DeepSeekがオープンソース・ウィークを発表したばかりで、1日に1つのオープンソースのリポジトリを共有している ことを考えると、それは明らかです。
DeepSeek R1は、Mixture of Experts（MoE、専門家の混合）機械学習アプローチを使用し、人工知能（AI）モデルを個別のサブネットワーク（または「専門家」）に分割し、それぞれが入力データのサブセットに特化して共同でタスクを実行します。
したがって、MoEアプローチを使用する場合、モデル内のすべてのパラメーターを同時に有効にする必要はありません。一例として、DeepSeekのv3またはR1モデルには約6,710億のパラメーターがありますが、一度にアクティブなパラメーターはわずか370億個です。したがって、モデル全体のうち、実際に質問に答える部分はごくわずかであるため、モデルははるかに効率的になります。
これまで、研究者はMoEモデルを使用したトレーニングの困難に直面してきました。DeepSeekは、専門家の混合を適度かつ効率的にする全体的なワークロードを維持しながら、これらの問題を修正するためのいくつかの新しい手法を考案しました。
例えば、V3とR1のモデルは、ラベル付けされたデータに依存する代わりに強化学習を使用しました。この手法では、様々なルートを考察して答えを導き出します。通過するそれぞれのルートを、その途中で再評価します。したがって、間違った方向に進んでいるかどうかをより迅速に判断できます。その後、迅速に遡って追跡し、潜在的により有利なルートを決定することができます。
この「思考の連鎖」の推論が、正しい最終目的地にたどり着き、報酬を得る助けとなります。この強化学習手法により、モデルをトレーニングし、OpenAIのモデルや他のモデルと同等以上のパフォーマンスを発揮させることができました。
制限がイノベーションを生むこともあります。DeepSeekは、中国へのチップ販売に関する米国の輸出規制のため、取得できるNVIDIAチップの種類が限られています。DeepSeekの親会社がNVIDIAのチップを手元に大量に保有していたのは明らかですが（ H800を2,000個）、それでもデプロイの仕方には機敏さが求められました。最適化を推進するために、ハードウェア・レベルに至るまでいくつかの驚くべき作業が行われました。
オープンソース・コミュニティでは、誰もがNVIDIAのCudaプラットフォームを使用しています。Cudaプラットフォームは、すべての異なるGPUを接続するのに役立つ優れたライブラリ・セットを提供しており、これにより、より効率的に通信したり、ワークロードを分散したりすることができます。しかし、DeepSeekはライブラリよりも一歩深く進み、ハードウェアもさらに最適化しました。
実際には、オープン・モデルが改善されてきたペース、そして今後も継続的に改善されていくペースは驚異的です。
AIはチップなしでは実現しません。将来、優れたモデルを生産するために必要なチップ数が減る可能性があるという当初のニュースは、一部の業界ウォッチャーの間で、チップの需要が減退するという論理的に誤った俗説を生み出しました。Jevons Paradox氏によれば、その逆が真であり、効率性の向上はしばしば消費量の増加につながります。燃料やエネルギーの使用量の推移と空調効率の向上により、人々はより大きな住宅を建てるようになりました。良いことは多すぎることはありません。
例えば、世界のウイスキー業界 を考えてみましょう。近年、独立系蒸留所や小規模蒸留所の台頭により、穀物の需要は高まるばかりです。経済学が中小企業の機会を改善するのは、どの業界でも同じです。特定の企業で使用されるチップの数は減るかもしれませんが、DeepSeekは、より多くのプレーヤーが市場に参入し、オープンソース技術を使用して、より少ないコストで優れたモデルを構築できることを実証しました。
これは、私にとって、最大の収穫です。重要なのは、驚異的なコンピューティング能力にアクセスできるエリートだけが、次の一連のモデルを構築できるわけではないということです。おそらく、小規模な研究室でも、より多くのモデルの構築に向けて投資を開始できる別のルートがあることでしょう。それは、AIエージェントや、私たち全員が期待するエージェントの未来にわくわくする人々にとって素晴らしいことです。
主要なプレイヤー間の競争は波のように盛衰するため、当面の勝者や敗者を考察することは避けた方がいいでしょう。企業、研究者、AI科学者は日々、より科学的な推論に基づいた、より優れたモデルを生み出すための革新を続けています。
だからこそ、私たちはLLMのGraniteファミリーに対する最近の推論のアップデートにとても興奮しています。Graniteは、ArenaHardやAlpacaEvaなどの推論モデルのベンチマークでR-1のパフォーマンスを上回っています。当社の推論モデルは2つの世界の両方の長所を兼ね備えています。つまり、高い性能と安全特性を両立させつつ、状況に応じてユーザーが推論機能を使用するかどうか選択できるようにしています。私たちが知っていることを共有し、オープンソース化可能なものをオープンソース化すればするほど、すべての人、とりわけ消費者にメリットをもたらすことでしょう
OpenAIなどは、小規模ながら強力な競争相手の台頭により当初は多少のプレッシャーを感じるかもしれませんが、これはコミュニティにとって大きな勝利であり、AIの未来に対するIBMの見解にも沿ったものです。これはオープンソース・コミュニティにとっては大きな勝利であり、小さなモデルが他のモデルよりも優れた存在になり得ることを示しています。言うまでもなく、これは決して大企業を除外するものではありません。彼らが賢明であれば、DeepSeekが教えてくれたことを活用して、引き続きより大きなモデルを低コストで構築するでしょう。
しかし、最終的には、競争は企業にとっても消費者にとっても素晴らしいものです。DeepSeek R1のような大きな出来事が起これば、誰もが勝者になります。
IBM® Granite™をご紹介します。ビジネス向けに特化し、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。