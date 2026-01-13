DeepSeekの低価格・高性能R1モデルがシリコンバレーとウォール街を震撼させてから約1年、中国のAI研究所は再びAI業界を揺るがそうとしています。今回、DeepSeekは大規模言語モデル（LLM）のトレーニングをより効率的、安定的、かつスケーラブルにできる新しいフレームワークをリリースしました。おそらく最も重要なのは、これにより事前トレーニングのコストが下がり、小規模企業や個々の開発者がLLMの力を解き放つことができるようになることです。

「このイノベーションにより、DeepSeek社は『事前トレーニング中にどのようにして予算に見合う価値を増やすか』と考えています」と、IBMの特別エンジニアであるChris Hayは、IBM Thinkのインタビューで述べています。「モデルのトレーニングは費用がかかる部分です。」

DeepSeek社の研究者は、Manifold-Constrained Hyper-Connections（mHC）と呼ばれるこの新しいアーキテクチャーを、30億、90億、270億のパラメーターを持つモデルでテストしました。通常スケーリングに伴って増大する重大な計算負荷や不安定性を、増やすことなくモデルを拡張できることがわかりました。