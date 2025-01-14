幼児でも、小さなブロックの上に大きなブロックを積み重ねるべきでないと知っています。ロボットではどうでしょう?そうとは言い切れません。少なくとも今までは。
従来のAIモデルは、テキストやデジタルデータの処理には優れていますが、子供が自然に理解できる基本的な物理には苦労します。NVIDIAは、CES 2025で発表された、物理世界の仕組みを機械に教える新しいプラットフォームであるNVIDIA Cosmosを使用して、その状況を変えることを目指しています。
このテクノロジーは、構造、力学、因果関係を形成するAIシステムである「世界モデル」を中心としています。これらのモデルは、ロボットや自動運転車が現実世界の環境をナビゲートする方法を変革し、天気予報や医療などの分野で役立つ可能性があります。
「世界モデルは、システムが環境を認識し、それと対話する方法を根本的に変えます」とアイルランドと英国のIBM研究ディレクターを務めるJuan Bernabé- Moreno氏は語ります。"これらのモデルは、単にインプットをアウトプットにマッピングするのではなく、構造、ダイナミクス、因果関係を捉えた内部表現を形成します。これにより、非構造化データをより流動的に扱い、見たことがない条件に適応し、より少ない直接例や指示に基づいて推論を行うことができるようになります」
Cosmosプラットフォームには、AIシステムをトレーニングするための物理ベースのシミュレーションを生成できる基盤モデルが含まれているほか、NVIDIAが同社の（従来のCPU処理の3年分を引き受けることができる）Blackwellプラットフォームを使用して、2週間以内に2,000万時間の動画を処理し、ラベル付けできるとされる高度なツールも含まれています。
他のAIモデルがテキストや画像を生成するのに対し、Cosmosは産業環境や運転環境における物理学ベースの相互作用に重点を置いています。開発者は、倉庫ロボットや自律走行の映像など、自社データを使用してシステムをカスタマイズできます。このプラットフォームは、すでにUberのようなパートナーのから関心を引いており、同社はこのプラットフォームが自動運転車への潜在的な近道であると考えています。
NVIDIAは、Hugging Faceなどのプラットフォームを通じ、オープン・ライセンスの下でこのモデルをリリースしています。CEOのジェンセン・フアンは氏は、これをロボティクスにとっての潜在的な"ChatGPTな瞬間"と呼び、大規模言語モデル（LLM）がテキスト生成を変えたように、世界基盤モデルが物理AIを民主化する可能性を示唆しています。
AIプラットフォームに重点を置くIBM Softwareの製品担当副社長であるArmand Ruizは、LinkedInの投稿でCosmosプロジェクトを支持し、このロボット・トレーニング・システムを「技術的傑作」だと呼びました。現実世界の映像で2,000万時間のレーニングがされたこのオープンソース・システムは、ロボティックのムーブメントと相互作用のための基盤モデルを創出しようとする、NVIDIA社の試みを表しています。
「最も良いのは、プロジェクトがオープンソースなことです。」とRuiz氏は書いており、Cosmosは倉庫内で箱が落下するなどのシナリオをシミュレートできるため、企業は独自のデータを使用してトレーニングをカスタマイズできると指摘しています。このシステムはNVIDIAのIsaacシミュレーション・プラットフォームで動作しますが、現実世界での性能はまだテストされていません。
IBMの研究者たちは、プリトヴィ気候・気象基盤モデルを通じて、このコンセプトを天気予報に利用しましたた。「これは、大気システムのグローバル・プロセスの物理的ダイナミクスを学習しました」とMoreno氏は言います。「これは、物理に準拠するシミュレーションや複数の詳細予測タスクを生成したり、さらに複数の分解能にダウンスケールしたりできる可能性があります。」
Uber、ロボット・メーカーの Figure AI、自動運転車開発の Waabi の3社が、テクノロジーを実装することにサインし、このサンドボックスに加わりました。このプラットフォームには、カスタマイズ可能なオープン・モデル・ライセンスが付属しています。
Metaの主任AIサイエンティストであるYann LeCun 氏は、世界モデルとは、現在の知識と将来の結果に影響を与える可能性のある未知の要因を考慮して、環境を観察し、次に何が起こるかを予測するシステムであると説明しています。彼は、現在のAI言語モデルは、このアプローチのシンプルなバージョンを使用していると指摘しています。これらは、過去の情報のみを参照して予測を行い、可能性のある異なったアクションや未知の変数は考慮していません。
現実世界への実装前にシナリオをシミュレートできる世界モデルの機能により、企業はロボティクスのコストと事故を両方減らすことができます。
「世界モデルを使用すると、機械は、物理的な世界で試みる前に、しばしば「デジタルツイン」と呼ばれるシミュレートされた空間で動きや相互作用を計画することができます」と Moreno氏は言います。「これにより、コストのかかる試行錯誤が大幅に削減され、安全リスクが軽減され、工業的な組み立て、倉庫物流、サービス指向のロボティクスなどのタスクについての学習が加速されます。」
Moreno氏は、これらの同じシミュレーション原理が、医薬品開発や病気治療の機会に目を向けた医療研究者の注目も集めていると指摘しています。
「医療業界では、世界モデルによって複数の領域、つまりゲノム、プロテオミクス、トランスクリプトミクス、化学のデータを統合し、生物学システムの複雑さを大規模に把握しています」と Moreno 氏は言います。「この全体的な視点により、研究者や臨床医は大規模な生物医学データセットの隠れたパターンを発見することができ、遺伝的扇動の予測、病状の分類、治療反応モデリングなどのタスクが可能になります」
しかし、これらの野心的な医療アプリケーションを実現するには、並外れたコンピューティング・リソースが必要です。これらのモデルをトレーニングするには、膨大な処理能力とリソース、さらには特殊なハードウェアが必要です。Cosmosモデルの最初のバッチは、ビデオデータを処理するためのツールとともに、今年NVIDIAのAPIカタログに登場します。
コンピューティング・パワーへの投資は、業界全体で新たな扉を開く可能性があります。AI世界モデルを通じて、組織はオペレーションの仮想ツインを作成し、実装前に膨大な量の変化をテストできます。これらの高度なシミュレーションにより、企業は新しい倉庫レイアウトの計画やワークフローへのロボットの追加などを、現実のビジネスを中断することなく、さまざまな状況で試すことができます。
「従来の生成AIのアプローチは、多くの場合、テキスト・データや純粋なデジタル・データ上で処理されるもので、物理的な物体や力について推論する能力がありません」と Moreno 氏は言います。「現実世界の相互作用を管理するルールをエンコードすることで、世界モデルはテキストや画像を超えた結果をシミュレートし、予測することができます。」
