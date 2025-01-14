Ein Kleinkind weiß, dass man größere Bauklötze nicht auf kleinere stapeln darf. Ein Roboter? Nicht wirklich. Zumindest bis jetzt.
Herkömmliche KI-Modelle sind hervorragend in der Verarbeitung von Texten und digitalen Daten, haben aber Schwierigkeiten mit grundlegenden physikalischen Gesetzen, die Kinder ganz natürlich verstehen. NVIDIA will das mit NVIDIA Cosmos ändern, einer neuen Plattform, die auf der CES 2025 angekündigt wurde und Maschinen zeigt, wie die physische Welt funktioniert.
Im Zentrum der Technologie stehen „Weltmodelle“, KI-Systeme, die interne Repräsentationen von Struktur, Dynamik und Kausalzusammenhängen bilden. Diese Modelle könnten die Art und Weise verändern, wie Roboter und autonome Fahrzeuge in realen Umgebungen navigieren und in Bereichen wie der Wettervorhersage und der Medizin helfen.
„Weltmodelle verändern grundlegend, wie Systeme ihre Umgebung wahrnehmen und mit ihr interagieren“, sagt Juan Bernabé-Moreno, Direktor von IBM Research in Europa für Irland und Großbritannien. „Anstatt einfach nur Eingaben Ausgaben zuzuordnen, bilden diese Modelle interne Repräsentationen, die Struktur, Dynamik und Kausalzusammenhänge erfassen. Sie ermöglichen eine flüssigere Verarbeitung unstrukturierter Daten, passen sich unvorhergesehenen Bedingungen an und ziehen Schlussfolgerungen auf der Grundlage weniger direkter Beispiele oder Anweisungen.“
Die Cosmos-Plattform umfasst Foundation Models, die physikbasierte Simulationen zum Training von KI-Systemen erzeugen können, sowie fortschrittliche tools, die laut NVIDIA 20 Millionen Stunden Video in nur zwei Wochen mit der Blackwell-Plattform verarbeiten und beschriften können – eine Aufgabe, die mit herkömmlicher CPU-Verarbeitung über drei Jahre dauern würde.
Während andere KI-Modelle Text oder Bilder generieren, konzentriert sich Cosmos auf physikbasierte Interaktionen in Industrie- und Fahrumgebungen. Entwickler können das System mit ihren Daten anpassen, beispielsweise mit Aufnahmen von Lagerrobotern oder autonomen Testfahrten. Die Plattform hat bereits Partner wie Uber auf sich aufmerksam, das sie als möglichen beschleunigenden Faktor auf dem Weg zu autonomen Fahrzeugen sieht.
NVIDIA veröffentlicht die Modelle unter einer offenen Lizenz über Plattformen wie Hugging Face. CEO Jensen Huang bezeichnet es als einen möglichen „ChatGPT-Moment“ für die Robotertechnik, indem er nahelegt, dass Foundation Models physische KI demokratisieren könnten, ähnlich wie große Sprachmodelle (LLMs) die Textgenerierung revolutionierten.
Armand Ruiz, VP of Product bei IBM Software mit Schwerpunkt auf KI-Plattformen, äußerte sich in einem LinkedIn-Beitrag zum Cosmos-Projekt und bezeichnete das Robotertrainingssystem als ein „technisches Meisterwerk“. Das Open-Source-System, das auf 20 Millionen Stunden realem Videomaterial trainiert wurde, stellt Nvidias Versuch dar, Foundation Models für robotische Bewegungen und Interaktionen zu schaffen.
„Das Beste daran ist, dass das Projekt Open Source ist!“, schrieb Ruiz und merkte an, dass Cosmos Szenarien wie das Umfallen von Kisten in Lagerhallen simulieren kann und es Unternehmen ermöglicht, das Training mit ihren eigenen Daten individuell anzupassen. Das System funktioniert mit der Isaac-Simulationsplattform von NVIDIA, obwohl seine reale Leistung noch getestet werden muss.
IBM-Forscher nutzten dieses Konzept in Wettervorhersagen durch ihr Prithvi-Climate-and-Weather Foundation Model. „Es hat die physikalische Dynamik globaler Prozesse des atmosphärischen Systems erlernt“, sagt Moreno. „Es könnte zur Generierung physikalisch korrekter Simulationen und multigranularer Forecasting-Aufgaben eingesetzt werden, ebenso wie für das Downscaling auf mehrere Auflösungsstufen.
Drei Unternehmen haben sich in diese Sandbox gewagt: Uber, der Roboterhersteller Figure AI, und der Entwickler autonomer Fahrzeuge Waabi haben Verträge zur Implementierung der Technologie unterzeichnet. Die Plattform verfügt über eine offene Modelllizenz zur individuellen Anpassung.
Metas leitender KI-Wissenschaftler, Yann LeCun, hat erklärt, dass ein Weltmodell ein System ist, das seine Umgebung beobachtet und vorhersagt, was als Nächstes passieren könnte, unter Berücksichtigung seines aktuellen Wissens und unbekannter Faktoren, die zukünftige Ergebnisse beeinflussen könnten. Er weist darauf hin, dass aktuelle KI-Sprachmodelle eine einfachere Version dieses Ansatzes verwenden: Sie betrachten nur frühere Informationen, um Vorhersagen zu treffen, ohne verschiedene mögliche Aktionen oder unbekannte Variablen zu berücksichtigen.
Die Fähigkeit des Weltmodells, Szenarien vor der realen Umsetzung zu simulieren, kann Unternehmen in der Robotertechnik Geld sparen und Pannen vermeiden.
„Weltmodelle ermöglichen es Maschinen, Bewegungen und Interaktionen in simulierten Räumen, sogenannten digitalen Zwillingen, zu planen, bevor sie diese in der realen Welt ausführen“, sagt Moreno. „Dadurch werden kostspielige Versuche und Irrtümer drastisch reduziert, Sicherheitsrisiken gemindert und das Lernen für Aufgaben wie industrielle Montage, Lagerlogistik oder serviceorientierte Robotertechnik beschleunigt.“
Moreno weist darauf hin, dass diese Simulationsprinzipien auch das Interesse von medizinischen Forschern geweckt haben, die darin Chancen für die Arzneimittelentwicklung und die Behandlung von Krankheiten sahen.
„Im Gesundheitswesen vereinen globale Modelle Daten aus verschiedenen Bereichen – Genomik, Proteomik, Transkriptomik und Chemie –, um die Komplexität biologischer Systeme in großem Maßstab zu erfassen“, sagt Moreno. „Diese ganzheitliche Ansicht ermöglicht es Forschern und Klinikern, versteckte Muster in großen biomedizinischen Datensätzen aufzudecken und so Aufgaben wie die Vorhersage von Genveränderung, die Klassifizierung von Krankheitszuständen und die Modellierung von Therapiereaktionen zu ermöglichen.“
Die Realisierung dieser ambitionierten Anwendungen im Gesundheitswesen erfordert jedoch außergewöhnliche Rechenressourcen. Das Training dieser Modelle erfordert selbst mit spezialisierter Hardware enorme Rechenleistung und Datenressourcen. Die ersten Cosmos-Modelle werden in diesem Jahr zusammen mit Tools für die Verarbeitung von Videodaten in NVIDIAs API-Katalog aufgenommen.
Die Investition in Rechenleistung könnte neue Türen in verschiedenen Branchen öffnen. Mithilfe von KI-Weltmodellen können Unternehmen virtuelle Zwillinge ihrer Abläufe erstellen, um signifikante Änderungen vor der sicheren Implementierung zu testen. Mithilfe dieser ausgeklügelten Simulationen können Unternehmen verschiedene Konfigurationen ausprobieren – sei es die Planung eines neuen Lagerlayouts oder die Integration von Robotern in ihren Workflow –, ohne ihren laufenden Geschäftsbetrieb zu beeinträchtigen.
„Herkömmliche generative KI-Ansätze arbeiten typischerweise mit textuellen oder rein digitalen Daten und besitzen daher nicht die Fähigkeit, über physikalische Objekte und Kräfte nachzudenken“, sagt Moreno. „Durch die Kodierung der Regeln, die Interaktionen in der realen Welt bestimmen, können Weltmodelle Ergebnisse simulieren und vorhersagen, die über Text oder Bilder hinausgehen.“
