Physische KI bezeichnet Systeme der künstlichen Intelligenz (KI), die in der physischen Welt operieren und mit ihr interagieren, anstatt nur in Software- oder digitalen Umgebungen zu existieren.
Physikalische KI umfasst in der Regel die Kombination von KI-Modellen mit Sensoren, Aktuatoren und anderen Steuerungssystemen, die es den Modellen ermöglichen, auf reale Umgebungen einzuwirken und Modelle vom Bereich der Bits in den Bereich der Atome zu verschieben. Mit KI können fortschrittliche physikalische Systeme nun die Umgebung wahrnehmen, mit der Kraft eines Large Language Models (LLM) argumentieren, entsprechend handeln und dann aus dem Ergebnis dieser Handlung lernen.
Eine andere Sichtweise auf physikalische KI ist, dass es sich einfach um KI-gestützte Modelle handelt, die auf Systeme im physischen Raum angewendet werden. Zum Beispiel konzentriert sich die Robotertechnik auf die Mechanik und Steuerung physischer Maschinen. Vor der KI war das Verhalten von Robotern in der Regel regelbasiert oder skriptgesteuert, und Roboter konnten nur begrenzte Aufgaben in speziell konstruierten Umgebungen ausführen. Denken Sie an einen ARM, der dieselbe Naht 1.000 Mal am Tag an einer Automobilproduktionslinie schweißt, oder an einen Roboterstaubsauger der frühen Generation, der vorgegebenen Navigationsregeln folgt.
Im Gegensatz dazu verfügen robotische KI-Agenten, die mit dem allgemeinen Verständnis von LLMs ausgestattet sind, über einen begrenzten, aber dennoch leistungsfähigen "gesunden Menschenverstand" über die Welt. Diese Modelle können mit Reinforcement-Learning-Techniken in Hochleistungs-Hybridarchitekturen kombiniert werden, sodass Roboter sowohl Allgemeinwissen als auch ein spezialisiertes Verständnis eines spezifischen Anwendungsfalls besitzen.
Darüber hinaus geht die physische KI weit über einzelne Roboter hinaus, bis hin zu ganzen KI-gestützten Fabriken, energieeffizienten intelligenten Stromnetzen oder Flotten automatisierter Fahrzeuge. Viele Systeme, die im physischen Raum existieren, können mit KI erweitert werden.
Mehrere Engpässe, die bisher eine physische KI-Revolution verhindert haben, werden gleichzeitig durchbrochen. Die erste und wichtigste ist die Einführung generativer KI, die auf Foundation Models basiert. Die heutigen großen Computer Vision und multimodalen Modelle können Objekte erkennen, räumliche Beziehungen verstehen und über verschiedene Umgebungen hinweg verallgemeinern. Dies reduziert den Umfang der spezifischen Schulung, die für einzelne Aufgaben erforderlich ist, und ermöglicht die Wiederverwendung von Informationen durch die Systeme.
Die zweite Herausforderung wird nun durch die Power moderner Simulationen überwunden, die hochpräzise physikalische Modellierung, fotorealistisches Rendering und Parallelisierung kombiniert. Dies reduziert die Trainingszeiten des Modells drastisch und macht Simulation nicht nur für Tests, sondern auch als primäres Trainingsfeld nützlich. Ein ähnlicher Trend ist die explosionsartige Zunahme der Verfügbarkeit von Computern. Durchbrüche bei GPUs und Rechenzentren haben Schulungen in großem Maßstab möglich gemacht.
Schließlich ist die Hardware besser denn je. Moderne Roboter haben bessere Sensoren und leichtere Materialien. Sie können von den jüngsten Durchbrüchen im Bereich der Edge-KI und den besseren Kommunikationsfunktionen profitieren. Diese Innovationen haben das Experimentieren auch für kleine Startups möglich gemacht. Das Ergebnis ist eine Renaissance für physische Automatisierung, von autonomen Fahrzeugen bis hin zu Industrierobotern und Bots, die Chirurgie und andere komplizierte Eingriffe durchführen.
Jensen Huang, CEO von Nvidia, wird weithin zugeschrieben, den Begriff „physische KI“ populär gemacht und ihn als die nächste große Welle KI-gestützter Innovation bezeichnet zu haben. In einem Podcast-Interview im Januar 2026 sagte Huang eine Zukunft mit „einer Milliarde Robotern“ voraus.1 Diese Vision beinhaltet eine neue Weltwirtschaft rund um die Entwicklung und Wartung all dieser neuen Roboter, die zu einer der größten Branchen der Welt werden könnten, nichts weniger als eine zweite industrielle Revolution.
Im selben Monat veröffentlichte Nvidia eine Sammlung offener Modelle, Frameworks und fortschrittlicher KI-Infrastruktur für physische KI.2 In der Pressemitteilung wurden neue Technologien zur Beschleunigung der Workflows im gesamten „Roboterentwicklungszyklus“ hervorgehoben.
„Der ChatGPT-Moment für die Robotertechnik ist da“, sagte Huang.
Die Version enthält offene, vollständig anpassbare Weltmodelle, die eine physikalisch basierte Generierung synthetischer Daten und die Bewertung von Roboterrichtlinien in der Simulation für physikalische KI ermöglichen, ein offenes Reasoning Vision Language Model und ein offenes Reasoning Vision Language Action Model. Dies ging mit neuen Simulations- und Computer-Frameworks einher.
Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.
Stellen Sie sich vor, das Ziel ist es, ein Netzwerk von mobilen Robotern (AMRs) zu trainieren, die autonom Müll von Gehwegen, Parks und Straßen aufsammeln können, ohne Menschen oder sich selbst zu schaden. Die Aufgabe ist nicht einfach als „Objekte aufheben“ definiert, sondern als das Erkennen von Müll in anderen Bereichen, das Navigieren in überfüllten Umgebungen, das Wählen sicherer Wege, das Aufnehmen von Objekten mit variabler Form und Größe und andere Probleme.
Sobald die Ziele definiert sind, muss der Roboter mit der entsprechenden Morphologie konstruiert werden. Sollte es ein humanoider Roboter sein oder etwas anderes? Verwendet es Räder oder Beine? Benötigt es einen Greifer, der Objekte einklemmt oder ein Vakuum, das sie aufsaugt? Welche Kameras und Sensoren benötigt es, um sich in seiner Umgebung zurechtzufinden?
Anschließend wird typischerweise eine simulierte Umgebung erstellt. Eine solche Umgebung kann Gelände, Abfall, zufällige Objekte (Felsen, Bänke, Zäune usw.), Menschen, Lichteffekte und verschiedene Wetterbedingungen enthalten.
In dieser simulierten Trainingsumgebung lernt das Modell, das das Verhalten des Roboters steuert, wie Müll aussieht – von Flaschen und Dosen bis hin zu Papierfetzen und winzigen Bonbonpapierchen. Es lernt, auf unebenem Gelände und bei starkem Wind das Gleichgewicht zu halten. Es lernt, wie man am besten Zusammenstöße mit Menschen vermeidet und wie man Glasflaschen fest genug greift, um sie aufzuheben, aber nicht so fest, dass sie zerbrechen.
Bei jedem Trainingslauf ändern sich die Eigenschaften der beteiligten Komponenten: größere Müllteile, andere Wetterbedingungen, mehr Menschen, die herumlaufen. Der Roboter „sieht nie zweimal denselben Bürgersteig“.
Wenn der Roboter eine vorgegebene Aufgabe korrekt ausführt, wird sein Verhalten mit einer hohen Punktzahl „belohnt“, was die besten Verhaltensweisen verstärkt. In vielen Iterationen lernt der Roboter, seine Arbeit zu erledigen.
Sobald der Roboter eine gewisse Erfolgsschwelle überschritten hat, wird er in einer realen Trainingsumgebung eingesetzt, beispielsweise in einer ruhigen Straße ohne viele Menschen. Der Roboter ist fein abgestimmt, um unerwartete neue Bedingungen zu bewältigen, die in der Simulation nicht vorhanden waren, wie etwa Wind, der kleine Müllstücke weht.
Diese Informationen werden verwendet, um die simulierte Trainingsumgebung für zusätzliche Schulungen zu verbessern. Anschließend kann der Roboter in komplexeren Umgebungen mit dichten Menschenmengen, bei schlechten Lichtverhältnissen oder auf nassen, rutschigen Oberflächen einem Stresstest unterzogen werden.
Der oben beschriebene Belohnungsmechanismus ist Teil des Reinforcement Learning, einer Art maschinelles Lernen, bei dem autonome Agenten lernen, anhand von Trial-and-Error-Interaktionen mit ihrer Umgebung Entscheidungen zu treffen. Reinforcement Learning ist für die Robotertechnik von entscheidender Bedeutung, da Agenten im Laufe der Zeit durch Interaktion Verhalten lernen, was Roboter in der physischen Welt tun müssen.
Die Welt ist chaotisch: Oberflächen unterscheiden sich, Objekte verformen sich, Sensordaten sind verrauscht und Menschen verhalten sich unberechenbar. Skalierbarkeit kann nicht erreicht werden, wenn man für jede Situation feste Regeln schreibt. Reinforcement Learning ermöglicht es Robotern, Strategien eigenständig zu entdecken, indem sie innerhalb von Einschränkungen experimentieren. Anstatt Anweisungen zu erhalten, wie man sich verschieben soll, lernt der Roboter, welche Verhaltensweisen unter realen Bedingungen am besten funktionieren.
Reinforcement Learning ist dort besonders effektiv, wo andere Methoden des maschinellen Lernens versagen. Beim Greifen von Müll zum Beispiel müssen Sie sich ihm nähern, einen Manipulator ausrichten, die Kraft anpassen und ihn anheben – und das alles, während Sie auf Echtzeit-Feedback reagieren. Überwachte Lernverfahren können theoretisch beschreiben, wie ein „guter Griff“ aussieht, aber sie können nicht ohne Weiteres lehren, wie man einen Fehler wieder ausgleicht oder sich mitten in der Bewegung anpasst. Reinforcement Learning hingegen optimiert ganze Handlungsabläufe auf der Grundlage langfristiger Ergebnisse.
Dies ist nur ein Beispiel dafür, wie ein Roboter trainiert werden könnte. Es gibt viele weitere Methoden für physische KI-Systeme, wie überwachtes und unüberwachtes Lernen, Imitationslernen und Lernen durch Demonstration (LfD).
Das Training von physischer KI funktioniert aus einigen Gründen anders als das Training nicht-physischer autonomer Systeme.
Daten sind teuer
Physik ist schwierig
Zeit ist von entscheidender Bedeutung
Echter Einsatz
Während traditionelle KI-Modelle auf statischen Datensatz, einschließlich Text, Bilder und Audio, trainiert werden, benötigt physische KI in der Regel Daten von Robotern, die mit realen Umgebungen interagieren. Im traditionellen maschinellen Lernen können Daten leicht gescrapt, kopiert und kostengünstig wiederverwendet werden. Bei physikalischer KI ist das nicht der Fall. Man kann in der Regel nicht einfach einen Datensatz „herunterladen“.
Die Datenerfassung braucht Zeit. Für jeden Datenpunkt muss ein Roboter seinen Körper bewegen, Objekte manipulieren oder einfach nur Dinge in seiner Umgebung in kontinuierlicher Zeit beobachten. In der realen Welt gehen Maschinen kaputt. Dichtungen sind dafür bekannt, zu platzen, was das Sammeln guter Trainingsdaten erschwert.
Physikalische KI muss sich mit den Gesetzen der Physik auseinandersetzen. Schwerkraft, Reibung, Temperatur, Drehmoment, Gleichgewicht, Timing, Impuls, Verschleiß, Geräusche, Verzögerung – die reale Welt ist unendlich komplex, weshalb Modelle, die in simulierten Umgebungen hervorragend funktionieren, bei Tests in der Praxis oft versagen.
Um den Unsicherheiten und Komplexitäten der Physik gerecht zu werden, könnte das Training physikalisch fundierte Modelle oder Hybridsysteme beinhalten, bei denen einfachere Regelalgorithmen für Stabilität sorgen und Lernmodelle sich auf die Wahrnehmung und Entscheidungsfindung beschränken.
Physikalische Systeme arbeiten in kontinuierlicher Zeit. In vielen Anwendungsfall sind enge Feedback-Schleifen mit minimaler Latenz zwischen Wahrnehmung, Entscheidung und Handlung erforderlich. Kleine Verzögerungen können zu Ausfällen führen. Oft ist Geschwindigkeit genauso wichtig oder sogar wichtiger als Genauigkeit. In anderen Bereichen der KI geht es in der Regel darum, die genaueste Ausgabe zu erzielen, aber die Berücksichtigung der Notwendigkeit von Geschwindigkeit stellt eine große technische Herausforderung dar.
In den meisten KI-Trainingsumgebungen sind Fehler harmlos und lassen sich leicht ignorieren. Doch in der realen Welt steht viel auf dem Spiel. Wenn ein LLM in einer digitalen Umgebung eine falsche Vorhersage trifft, kann ein Mensch entscheiden, ob er darauf reagieren möchte oder nicht. Wenn ein selbstfahrendes Auto hingegen die Geschwindigkeit des vorausfahrenden Fahrzeugs falsch einschätzt, können die Ergebnisse katastrophal sein. Training beinhaltet oft Einschränkungen und eine schrittweise Steigerung der Autonomie, was manchmal menschliche Aufsicht und andere Formen der Überwachung erfordert.
Um die oben genannten Nachteile zu Adresse, verlassen sich Forscher stark auf simulierte Umgebungen und synthetische Daten, die von Robotern generiert werden, die oft virtuell sind und mit virtuellen Umgebungen interagieren.
Der Einsatz von World Foundation Models (WFM) wird in der Robotertechnik immer häufiger eingesetzt. Ein WFM ist ein leistungsstarkes KI-System, das die Dynamik der physikalischen Welt (Geometrie, Bewegung, Physik) aus riesigen Mengen realer Daten gelernt hat und dadurch in der Lage ist, realistische, physikbewusste Szenarien für das Training physikalischer KI zu generieren.
Diese Simulation beinhaltet oft die Erstellung eines digitalen Zwillings eines Systems oder einer Umgebung, wie einer Fabrik. In diesem virtuellen Raum führen autonome Maschinen Aufgaben aus und erzeugen synthetische Daten darüber, wie diese Maschinen im virtuellen Raum funktionieren.
Techniken wie die Domänen-Randomisierung, bei der die Eigenschaften der simulierten Umgebungen absichtlich auf alle möglichen Arten von Zufällen erzeugt werden, können dazu beitragen, nützlichere synthetische Daten zu erzeugen, was zu robusteren Modellen führt, die ihre Fähigkeiten auf die chaotische, höchst variable Realität übertragen können. Eine übermäßige Nutzung synthetischer Daten kann jedoch zu Überanpassung führen.
Jensen Huang, Podcast-Interview Januar 2026 (Video), No Priors: AI, Machine Learning, Tech, & Startups, YouTube.com, 8. Januar 2026
NVIDIA Newsroom: NVIDIA veröffentlicht neue physische KI-Modelle, während globale Partner die nächste Generation von Robotern vorstellen. Nvidia.com, 5. Januar 2026