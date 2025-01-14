Un enfant en bas âge sait qu’il ne faut pas empiler des blocs plus gros sur des blocs plus petits. Un robot ? Pas tellement. Du moins jusqu’à présent.
Les modèles d’IA traditionnels excellent dans le traitement du texte et des données numériques, mais ont du mal avec les notions de physique élémentaires que les enfants comprennent naturellement. NVIDIA ambitionne de changer cela avec NVIDIA Cosmos, une nouvelle plateforme annoncée au CES 2025 qui enseigne aux machines le fonctionnement du monde physique.
Cette technologie s’articule autour de « modèles mondiaux », des systèmes d’IA qui forment des représentations internes de la structure, de la dynamique et des relations causales. Ces modèles pourraient transformer la façon dont les robots et les véhicules autonomes naviguent dans les environnements réels et aider dans des domaines tels que la prévision météorologique et la médecine.
« Les modèles mondiaux changent fondamentalement la façon dont les systèmes perçoivent leur environnement et interagissent avec lui, explique Juan Bernabé-Moreno, directeur d’IBM Research en Europe pour l’Irlande et le Royaume-Uni. Plutôt que de simplement mettre en correspondance les entrées et les sorties, ces modèles forment des représentations internes qui capturent la structure, la dynamique et les relations causales. Cela permet de traiter les données non structurées de manière plus fluide, de s’adapter à des conditions inédites et de faire des déductions à partir d’un nombre réduit d’exemples ou d’instructions directs. »
La plateforme Cosmos comprend des modèles de fondation capables de générer des simulations physiques pour l’entraînement des systèmes d’IA, ainsi que des outils avancés qui, selon NVIDIA, peuvent traiter et étiqueter 20 millions d’heures de vidéo en seulement deux semaines à l’aide de sa plateforme Blackwell, une tâche qui prendrait plus de trois ans avec un traitement CPU traditionnel.
Alors que d’autres modèles d’IA génèrent du texte ou des images, Cosmos se concentre sur les interactions physiques dans les environnements industriels et de conduite. Les développeurs peuvent personnaliser le système avec leurs propres données, telles que des séquences filmées par des robots d’entrepôt ou des essais de conduite autonome. La plateforme a déjà attiré des partenaires tels qu’Uber, qui y voit un moyen potentiel d’accélérer le développement des véhicules autonomes.
NVIDIA publie les modèles sous licence ouverte via des plateformes telles que Hugging Face. Le PDG Jensen Huang parle d’un « moment ChatGPT » potentiel pour la robotique, suggérant que les modèles mondiaux pourraient démocratiser l’IA physique, tout comme les grands modèles de langage (LLM) ont transformé la génération de texte.
Armand Ruiz, vice-président des produits chez IBM Software spécialisé dans les plateformes d’IA, s’est exprimé sur le projet Cosmos dans une publication LinkedIn, qualifiant le système d’entraînement des robots de « chef-d’œuvre technique ». Entraîné à partir de 20 millions d’heures d’images réelles, ce système open source représente la tentative de Nvidia de créer des modèles de fondation pour les mouvements et les interactions robotiques.
« Le meilleur, c’est que le projet est open source ! », écrit M. Ruiz, soulignant que Cosmos peut simuler des scénarios tels que la chute de boîtes dans des entrepôts et permet aux entreprises de personnaliser l’entraînement avec leurs propres données. Le système fonctionne avec la plateforme de simulation Isaac de NVIDIA, mais ses performances dans le monde réel restent à tester.
Les chercheurs d’IBM ont employé ce concept dans les prévisions météorologiques grâce à leur modèle de fondation Prithvi-Climate-and-Weather. « Il a appris la dynamique physique des processus globaux du système atmosphérique, explique M. Moreno. Il pourrait être utilisé pour générer des simulations conformes à la physique et des tâches de prévision multi-granulaires, ainsi que pour réduire l’échelle à plusieurs résolutions. »
Trois entreprises se sont lancées dans l’aventure : Uber, le fabricant de robots Figure AI et le développeur de véhicules autonomes Waabi ont signé pour mettre en œuvre cette technologie. La plateforme est fournie avec une licence de modèle ouverte pour la personnalisation.
Yann LeCun, directeur scientifique en IA chez Meta, explique qu’un modèle mondial est un système qui observe son environnement et prédit ce qui pourrait se passer ensuite, en tenant compte de ses connaissances actuelles et des facteurs inconnus susceptibles d’influencer les résultats futurs. Il note que les modèles de langage actuels de l’IA utilisent une version simplifiée de cette approche : ils se basent uniquement sur les informations passées pour faire des prédictions, sans tenir compte des différentes actions possibles ou des variables inconnues.
La capacité du modèle mondial à simuler des scénarios avant leur mise en œuvre dans le monde réel peut permettre aux entreprises de réaliser des économies et d’éviter des incidents dans le domaine de la robotique.
« Les modèles mondiaux permettent aux machines de planifier leurs mouvements et leurs interactions dans des espaces simulés, souvent appelés "jumeaux numériques", avant de les tester dans le monde physique, raconte M. Moreno. Cela réduit considérablement les essais et erreurs coûteux, atténue les risques pour la sécurité et accélère l’apprentissage pour des tâches telles que l’assemblage industriel, la logistique d’entrepôt ou la robotique orientée services. »
M. Moreno souligne que ces mêmes principes de simulation ont également attiré l’attention des chercheurs médicaux, qui y ont vu des opportunités dans le développement de médicaments et le traitement des maladies.
« Dans le domaine de la santé, les modèles mondiaux unifient les données provenant de plusieurs domaines (génomique, protéomique, transcriptomique et chimique) afin de saisir la complexité des systèmes biologiques à grande échelle, explique M. Moreno. Cette vision holistique permet aux chercheurs et aux cliniciens de découvrir des schémas cachés dans de grands jeux de données biomédicales, ce qui facilite des tâches telles que la prédiction des perturbations génétiques, la classification des états pathologiques et la modélisation des réponses aux traitements. »
Cependant, la mise en œuvre de ces applications ambitieuses dans le domaine de la santé nécessite des ressources informatiques extraordinaires. L’entraînement de ces modèles exige une puissance de traitement et des ressources de données considérables, même avec du matériel spécialisé. La première série de modèles Cosmos fait son apparition cette année dans le catalogue d’API de NVIDIA, aux côtés d’outils de traitement des données vidéo.
L’investissement dans la puissance de calcul pourrait ouvrir de nouvelles perspectives dans tous les secteurs. Grâce aux modèles mondiaux d’IA, les entreprises peuvent créer des jumeaux virtuels de leurs opérations afin de tester des changements importants avant de les déployer en toute sécurité. Ces simulations sophistiquées permettent aux entreprises d’expérimenter différentes configurations, qu’il s’agisse de planifier un nouvel agencement d’entrepôt ou d’ajouter des robots à leur workflows, sans perturber leurs activités réelles.
« Les approches traditionnelles de l’IA générative fonctionnent généralement sur des données textuelles ou purement numériques, sans capacité à raisonner sur des objets physiques et des forces, dit M. Moreno. En codant les règles qui régissent les interactions du monde réel, les modèles mondiaux peuvent simuler et prédire des résultats au-delà du texte ou des images. »
