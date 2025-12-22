2026年には、最もスマートなAIモデルが最大のモデルではない可能性があります。
過去1年間、前提が崩壊するのを目の当たりにしてきた研究所、投資家、研究者たちは現在、この可能性に賭けています。今後12カ月間は、大規模なシステムを構築する競争ではなく、より賢明なシステム、つまり、話す前に考え、より少ないリソースでより多くのことを実現するモデルを開発する競争によって定義されるでしょう。
IBMフェローのKush Varshneyは、IBM Thinkのインタビューで、「小さな言語モデルでも、はるかに大きなモデルと同じレベル、あるいはそれ以上のパフォーマンスを得ることができます」と語っています。
1年前なら、それは異端に聞こえたでしょう。10年間、AIは「より多くのデータ、より多くのパラメーター、より多くの計算能力、より多くのインテリジェンス」という、極めて単純な問答に従って動作していました。ラボは、鏡越しのボディビルダーのように、パラメーター数の発表を競い合いました。トレーニングの実行では小都市並みの電力出力を消費しました。企業全体が領土獲得競争のように感じていました。ただし、獲得する領土はテラフロップス単位で測定されます。
そして2025年1月が来ました。中国に拠点を置くDeepSeek社という企業が、 Nvidiaの株価を1日で17%下落させるモデルをリリースしました。アルゴリズムの巧妙さは、総当たりの計算力の代わりになる可能性があります。必要だったのは大聖堂ではなく、より良い青写真でした。
米国の大手研究所は急速に方向転換しました。 University of North Carolina Kenan-FlaglerのSeyed Emadi准教授（オペレーションズ）は、IBM Thinkとのインタビューで次のように率直に語っています。「AIの2025年を要約すると、私たちはモデルの拡大をやめ、より賢くするようになりました。」
この方向転換が、将来を形作っています。研究者たちのコンセンサスは驚くべきもので、不気味とも言えます。過去1年間で最も重要な進歩を特定するように求められたとき、カリフォルニア大学サンディエゴ校の機械学習教授であるMisha Belkin氏は、「思考モデルの台頭と推論時間のスケーリング」を挙げ、インタビューでは、これを2026年の基盤と呼びました。ミシガン大学でAI研究所を率いるRada Mihalcea氏は、「マルチエージェント・システムの進歩と（中略）弱点に対するより深い理解が今後の道を決める」という補完的な見解をIBM Thinkで語りました。
この変化は、シリコンにおけるインテリジェンスの意味の再考を表しています。古いアプローチでは、トレーニング中に強化するもの、つまりシチューの調味料のように、トレーニング中に強化するもののように扱われていました。完了すると、モデルは凍結されました。新しいアプローチでは、知能を推論時間計算と呼ばれる、推論により多くの時間を与えることで、実行時に現れる可能性があるものとして扱います。
その影響についてはまだ解明中です。スタンフォード大学でAI推論を研究している研究者であるGabriel Poesia氏は、モデルが「より長期的な思考」と「長い思考期間中にシームレスにツールを使用する」ことが改善されていることを観察しています。平易な英語のバージョン：機械は話す前に考えることを学習した。
古いモデルは反射のように機能し、インプット、予測、アウトを行い、思考を停止することはありませんでした。新しいモデルは熟考します。難しい質問をすると、モデルはその質問に答えて、時には数分間座ってロジックをチェックし、行き詰まったら前に戻ります。それは非常に思考に似ています。なんらかの意味を持って思考しているかどうかは、依然として答えのない大きな問いの1つです。
思考モデルが2025年の知的ストーリーだとすると、商業的にはもっと大雑把であった驚きがあり、最先端のAIは誰もが思っているよりもはるかに安価であることが判明しました。重力と同じくらい不変に見えていた経済学は、よりファッション的であることが判明しました。その発見は、2026年の競争を再構築するでしょう。
DeepSeek社の1月のリリースは爆弾のような衝撃を与えました。このモデルは、西洋諸国のシステムと比較して、約10分の1のトレーニング計算量で、同等の性能を発揮しました。「それが物事を後押ししました」とVarshney氏は言います。「今は別の競合が存在し、全員が競争力を高める必要があります。」
モデル・アーキテクチャーには独自の目立たない変更が加えられています。注目の新しいパターンである専門家の協働は、すべてのクエリーに対してすべてのパラメーターを有効にするのではなく、入力を専門のサブネットワークにルーティングします。すべての知識を一人の医師に依存するのではなく、適切な専門医に相談するようなものだと考えてください。ノースカロライナ大学で技術政策を研究するAndrew Chin法学教授は、IBM Thinkに経済学を次のように説明しました。「密度の高いモデルは、トークンごとにほぼ同じ計算コストを負担します」と彼は語りました。「スパース・システムでは、パラメーターのサブセットを通じてトークンをルーティングします。」企業にとっての意味は重大で、「規模は最大化するだけではなく、管理するものになる」のです。
民主化はアーキテクチャーを超えてファイン・チューニングにまで及びます。ペース大学のコンピュータ・サイエンス教授であるChristelle Scharff氏は、IBM Thinkに「LoRAと軽量のファイン・チューニングへの明確な移行があり、限られたコンピューティングで強力なモデルを適応させることができるようになった」と語っています。予算が限られている研究者は、1年前には手が届かなかったモデルをカスタマイズできるようになりました。扉は開かれ始めています。
効率化にはシステム設計も含まれます。UNC看護学部の助教授で、ヘルスケアにおけるAIを研究しているKandyce Brennan氏は、IBM Thinkの取材に対し、MITのDisCIPLプランナーのようなアプローチ（「大規模なモデルが（中略）多くの小規模なモデルを計画し、調整する」）は、「はるかに低い計算コスト」で結果を出すと語りました。この効率化により、エネルギー使用量と環境負荷も削減されます。
「データ制限とエネルギーの問題は現在大きな課題となっており、より小さなモデルの方向の研究を推進しています」とMihalcea氏は述べています。こうした制約はますます厳しくなるでしょう。
企業が実際に必要としているのは、結局のところ、すべてを実行する能力ではない、とVarshney氏は言います。彼は風変わりな例を示しました。モデルに月の公民権についてコメントするように依頼すると、流暢な回答を返すことができます。「しかし、企業の業務のほとんどはそうではありません」と彼は言います。「企業はより特定の目的を持っています。」規模の理論は、目的に合っているという実用性に取って代わられつつあります。
この進歩は現実のものでした。限界も同様に存在します。検討能力が強化されたにもかかわらず、AIモデルは依然として特定の種類の間違いを犯す可能性があります。それは、間違った美術館に迷い込んだツアーガイドが平然と自信を持って犯す間違いのようです。
Poesia社はその根本的な問題を特定しました。「信頼性と創造性が引き続き2つの大きな課題となるでしょう。99.9%成功しただけでも十分ではありません」と彼は言います。計算にミスは許されません。1,000回の試行で1回失敗するシステムは、100万回のクエリを処理すると1,000回失敗します。医療、法律、金融の分野では、これらは許容されません。
創造性は別の問題です。「オープンエンドのタスクでは（中略）異なる会社のモデルでも同じような出力を与える傾向があります」とPoesia氏は観察しました。このモデルは、正しい答えを見つける能力が非常に向上しています。独創的であることを求められると、不思議なことに統一性を保ちます。
推論モデルには独自の盲点があります。Varshney氏は次のように述べています。「中間ステップを検証する機能があるタスクでは、これらの長いフローが役立ちます。しかし、中間の検証可能なステップが存在しないものが大量にあります。」
ARC-AGI-2と呼ばれるベンチマークがそのギャップを示しています。このテストは、人間には簡単だと思う問題を提示しますが、AIにとっては非常に難しい問題です。「最先端の思考モデルでさえ、スコアは人間のパフォーマンスを大きく下回ります」とEmadi氏は言います。「モデルは以前よりも適切に推論できるようになっていますが、それでも自信を持って間違っている場合があります。」
ハルシネーション（幻覚）は、この分野では架空の事象を作り上げることの丁寧な呼び方であり、その現れ方は変わりましたが、今も残っています。 UNCで人間とAIの相互作用を研究するMohammad Hossein Jarrahi教授はIBM Thinkに対し、「ハルシネーションの性質は変わったが完全には消えていない」と語りました。もっともらしく聞こえるものの、実際には正しくない情報を生成する傾向は、依然として頑固に根強く残っています。
一部の研究者は、より広いトラジェクトリーについて心配しています。ノースカロライナ大学で教育技術プログラムを指導するTodd Cherner氏は、IBM Thinkで語りました。「AIエージェントの機能向上は挑発的です。未来は、人々が認識するよりも早く、AGIに向かっていると思います。AGIを推し進める前に、今あるものを有効に活用すべきです。」
コンピューティングの基本原則は、今でも適用されます。「アウトプットの質は、インプットの質に左右されます」RENCIのユーザー・エンゲージメント・スペシャリストであるNathalie Volkheimerは、IBM Thinkで語りました。「私たちはソーセージを作る機械に焦点を当てており、ソーセージそのものではありません。でも、最終的には自分たちが作ったものを食べます。」
あまり知られていない進歩が1つあります。それは、モデルが作業メモリに保持できる情報量であるコンテキスト・ウィンドウの拡張です。「リポジトリ規模のコンテキストが、100万トークン程度まで、より良く見える」とJarrahi氏は言います。100万トークンはおよそ数冊の小説です。モデルは、より長いやり取りにわたって一貫した理解を維持できるようになりました。これは、法的文書のレビュー、ソフトウェア開発、研究統合にとって非常に重要なことです、と彼は言います。
引用機能も向上しており、「特定の文章を参照できる組み込みのグラウンディング機能も備わっています」とJarrahi氏は付け加えます。モデルがその機能を示すことができれば、ユーザーは盲目的に信じて受け入れるのではなく、検証することができます。信頼しつつも、検証してください。あるいは、信頼せず、確実に検証しましょう。
しかし、検証できる範囲には限りがあります。MIT-IBM Watson AI LabのMIT所長であるAude Oliva氏は、IBMと人間のAIコラボレーションの未来は対話であるとIBM Thinkで語りました。人工エージェント型システムは、ある程度の心の理論を備えている必要があります。AIシステムの内部の仕組みを理解することが、信頼の基盤を形成します。」心の理論（他のユーザーが異なる視点を持っていることを理解する能力）は、人間同士の交流の基礎となります。AIにそれが存在しないことで、いかなる機能でも克服できない摩擦が生じます。
それに応じて、成功の指標も変化しています。「この分野は、機能そのものが持つ流暢さよりも、トレーサビリティー、キャリブレーション、相互作用の堅牢性によって判断されるモデルに容赦なく向かっています」とJarrahi氏は言います。華やかなメトリクスは、信頼性のメトリクスに取って代わられつつあります。煌びやかさの時代は終わりを告げ、予測可能性が主流となってきています。
「主なテーマは制約下での機能の実現でした」とChin氏は言います。「先進的な取り組みは、規模拡大自体を目的として扱うのではなく、システムを現実の制限下でも予測どおりに動作させることに焦点を当てています。」進歩はムーンショットではなく、エンジニアリングの問題のように見えます。
3つの制約によって2026年に組織がAIでできることは決まると、IBM Thinkで専門家が語っています。1つ目は経済的、2つ目は物理的、3つ目は規制です。
お金から始めましょう。「推論経済学はますます厳しい制限として機能するようになるでしょう」とChin氏は言います。「最近の推論の向上の多くは、クエリーあたりのコンピューティング量の増加に依存しています」思考に数分かかるモデルは、大規模なリアルタイム応答が必要な場合にはデプロイできない、と彼は指摘します。
物理的な制約も同様に厄介です。「世界のデータセンターの電力消費量は、2030年までに2倍以上になると予測されています」とEmadi氏は言います。「多くの組織にとって来年の制約は、チップの可用性ではなく、チップを接続するためのギガワットになるでしょう。」業界は長年にわたってチップに固執してきました。ボトルネックは発電所に移行します。
「計算負荷、つまり環境コストは依然として高いままです」とBrennan氏は付け加え、「サステナビリティーに関する重要な倫理的問題が生じています」AIの炭素排出量は無視できないものになりました。
そして規制の問題もあります。「ガバナンス・バイ・デザインの圧力が、モデル開発をより直接的に形作ります」とChin氏は言います。「多くのデプロイメントの場合、単に高い性能を発揮するだけでなく、監査可能で制限された動作が要件とされます。」ブラックボックスの時代は終わりを告げようとしています。
産業と学術界の間のギャップの拡大は、一部の観察者を悩ませています。「大学は基盤となるAIに再び焦点を当て、今から10年から20年後にこの分野を形作るアイデアに投資する必要があります」とScharff氏は述べています。大規模なモデルはますます教育機関向けの範囲を超えており、次世代のアイデアがどこから生まれるのかについて、不安を募らせる疑問が生じています。
あまり報道されていない進展が一つあります。それは、主権型AIの台頭です。「多くの国または地域で、人々は独自のモデルを開発しています」とVarshney氏は述べました。トレーニング・データはより文化に対応し、経済的管理をより家庭に近い場所に移行させるため、これらが重要になると、彼は指摘します。
2026年に向けて、Varshney氏は劇的なブレークスルーではなく、継続的な実験を予想しています。「すべてがまさに革命的である必要はありません」と彼は言います。Mihalcea氏も同様の予測を示しました。「マルチ・エージェント・システムを活用した、より小規模かつ特化した専門家モデル」です。大きな飛躍が起こるかどうかを尋ねると、Varshney氏は慎重でした。「次のChatGPTが生まれる可能性は常にあります」と彼は言います。「しかし、私はそれを期待していません」正直な答えは、誰も知らないということです。
実務者たちはすでにこの新しいランドスケープに適応しつつあります。UNC Kenan-FlaglerのJayashankar Swaminathanオペレーション教授は、IBM Thinkに、「最大の進歩は、AIが単純な順序で複数のタスクをこなせるようになった（中略）自律的なエージェント機能の周辺にある」と語っています。2つ目は、意思決定の背後にあるロジックの推論に関係しています」
医療において、UNC School of NursingのMaureen Baker臨床准教授は、IBM Thinkに「AIモデルは驚くべきスピードで進歩している」と語りました。しかし、彼女は機能からデプロイメントを区別しました。「批判的思考、臨床的推論、判断は最前線に据える必要があります」彼女のアプローチは実用的で、「リスクを最小限に抑えて、簡単な勝利を求めています。」
エコシステムは差別化が進んでいます。ペース大学の David Sachs情報テクノロジー教授は、IBM Thinkに「2種類のモデルが現れているようです。1つは、大規模で何でもできるモデルで、もう1つは、JuliusやPerplexityのような焦点を絞ったモデルです」と述べました。ソフトウェアがモノリシック・アプリケーションから特殊なツールへと進化したように、AIはニッチに断片化されています。
「これらのシステムの実際の使用は、共生ワークフローを設計することによって形作られます」とJarrahi氏は言います。人間は判断力、創造性、説明責任をもたらします。AIは、スピード、一貫性、そして膨大な量の情報を処理する能力をもたらします。それらをどのように組み合わせるかを理解している組織が、エッジを持つことでしょう。
Chin氏は「フロンティアAIは、単純な規模によって定義される時代から、手順、制約、運用上のトレードオフによって定義される時代へと移行しています」と述べました。エンジニアが現実世界の限界に向けて最適化を始めると、テクノロジーは成熟します。その基準で見ると、AIはついに成熟しつつあります。
しかし、Varshney氏はテクノロジーよりもさらに深いことについて考えています。「どのような作業がAIシステムに委任され、どの作業を人間が引き続き行うのでしょうか」と尋ねます。「人間は特定のことをすることに意味を見いだしているからでしょうか。人間であることとは、さまざまな意味で何を意味するのでしょうか？」
