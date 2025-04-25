ベンチマーク、推論コスト、イノベーション：AIはどのように私たちの社会を再構築しているのか？今年、Stanfordの2025年AIインデックス・レポートでは、生活のあらゆる面でAIが果たす役割の増大を反映して、新しい対象範囲が追加されました。
IBM Thinkは、StanfordのInstitute for Human-Centered Artificial Intelligenceの研究プログラム・ディレクター、Vanessa Parli氏と、IBMのTechnical Content ManagerのAsh Minhasの協力を得て、レポートの主要な傾向をいくつか解明しました。
AIの機能が急速に進歩し、その測定に使用されるツールを常に上回っている現在、ベンチマークが議論の中心になっています。
「毎年、私たちはこれらのアルゴリズムがベンチマーク全体でどのように機能しているかを調べていますが、毎年、ベンチマークを上回っているように見えます」と、レポート作成者の1人のVanessa Parli氏はIBM Thinkとのインタビューで述べています。「同様に、今年も新しいベンチマークで同様のことが起こっています」。
報告書では、2023年に研究者たちが先進的なAIシステムの限界を試そうとMMMU、GPQA、SWE-benchといった新しいベンチマークを導入したことが指摘されています。そのわずか1年後、性能が急激に増加し、レポートによると、MMMU、GPQA、SWEベンチのスコアはそれぞれ18.8、48.9、67.3％上昇しました。
これにより、研究界でのLLMベンチマークの真の意味と価値が不明確になっています。Parli氏は、考慮すべきクリティカルな問いを投げかけています。「私たちは正しいものを測定しているのでしょうか？これらのベンチマークは損なわれているのでしょうか？科学界はモデルをどのように評価すべきなのでしょうか？」
Ash Minhasは、先を見据えて、ベンチマークの未来がどうなるかについても慰問を抱いています。「どこで終わるのでしょう？」とIBM Thinkのインタビューで尋ねています。「チューリング・テストは常に動くゴールポストでなければならないのでしょうか？人類にとって最後の試験は、本当に最後の試験なのでしょうか？」
一方、専門家は、AIモデルが特定のベンチマーク・テストでは非常に優れたパフォーマンスを発揮するように学習したにもかかわらず、現実世界のアプリケーションでは新しい未知のデータに対しては一般化できない可能性がある現象の過剰適合のリスクについて警告しています。「ベンチマークに合格するためにモデルをトレーニングしただけなのでしょうか？」と彼は付け加えています。「MMMUは優れたベンチマークですが、それはモデルがベンチマークへの対応方法を知っているからでしょうか？」
Minhasはまた、倫理や公平性、偏見を気にすることよりも、進歩の興奮と勢いが優先される可能性があると警告しています。
昨年のノーベル物理学賞と化学賞が人工ニューラル・ネットワークやタンパク質の設計・予測の研究者に授与されたことから、医療分野におけるAIの役割の拡大の重要性を無視することはできなくなりました。レポートによると、FDAの承認を得たAI対応医療機器の数は飛躍的に増加し、2015年にはわずか6件であったところ、2023年には223件の承認がなされました。
「科学的発見を促進するAIのこの分野は、私たちの社会に大きな影響を与える可能性があります」とParli氏は言います。
Minhasによると、この成長はイノベーションの急速なペースを示すものですが、「これらの新しいデバイスや製品をテストできる適切な専門家と適切なスキルがあるか？」という疑問も生じています。
2024年の主要な投資において、AIは重要な原動力となっています。新たに資金を提供した生成AIスタートアップ企業の数はほぼ3倍になり、何年にもわたって導入が遅れていた後、2024年にはビジネスへの導入が大幅に加速したことがレポートで明らかになりました。
AIは縁の下の力持ちから、ビジネス価値の中心的な要因となったのです。2024年のAIへの企業投資総額は2,523億米ドルに達し、個人投資は前年比44.5％、合併と買収は12.1％増加しました。これは、米国でのスタートアップ・エコシステムの繁栄に役立ち、民間AI投資は2024年に1,091億米ドルに達しました。
職場では、AIも主要なプレーヤーで、多くの人々がエージェント型AIが企業のワークフローに与える影響に期待を寄せています。
しかし、ビジネスはイノベーションとは異なる動きで進んでいます。「テクノロジーは飛躍的に進歩していますが、人材とプロセスが変化するのには時間がかかります」とMinhasは言います。
彼によると、AIがROIに与える影響については依然として議論の余地があるとのことです。「経済的メリットについては、まだよく理解されていません」とMinhasは述べています。「ROIが何なのか同意もなければ、本当のところは誰も知らないのです。」
このレポートは、国または地域がインフラストラクチャーへの投資を強化していることを強調しています。もちろん、中国が強力なモデルを発表したことで、米国の進歩を当然だとみなすべきではないことが明らかになりました。
「米国が常にトップにあり続けることが当然だと考えることはできなくなりました。私たちは、コンピューティング、人材、データというAIのコンポーネントについて考察し続ける必要があります」とParli氏は言います。「これまでのようなイノベーションのリーダーシップを維持し、それを実現するための適切な材料を確保したいのであれば、投資を続けなくてはなりません。」
それでも、このレポートでは、矛盾とまではいかなくても、もう1つの興味深い傾向が浮き彫りになっています。米国のようにAIへの投資が最も多い国または地域が、AI技術予算が限られている国よりも、AI製品やサービスに懐疑的な見方を示しているということです。
レポートに示された数字によると、インドネシアでは調査対象者の80％が、AI製品は有害であるよりも有益だと考えているのに対し、米国ではわずか39％でした。
「多くの国では、AIによって特定の参考情報（例えば医療など）にアクセスできるようになりました。おそらく、AIや文化の違いについては、おそらくもっと楽観的になるのではないかと考えています」とParli氏は説明しています。「プライバシー、セキュリティ、データプライバシーなどの問題に関しても、文化的な違いがあります。」
最後に、AIは物理空間でより多く存在するようになります。
レポートによると、2013年から2023年にかけて世界的に設置された産業用ロボットの数は約3倍となり、2023年には54万1,000台に設置されました。
「一部のAIツールでは、自然言語でロボットと会話でき、動きを使用できます」とParli氏は言います。「ロボットとより緊密に連携でき、ロボットとの連携も容易になります。医療分野はロボティクスがさらに進む分野だと考えています。」
