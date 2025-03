Ces machines, bien qu’impressionnantes en vidéo, sont dotées d’algorithmes de contrôle très rigides, incapables de s’adapter à la moindre variation de l’environnement ; un obstacle imprévu, une marche plus haute que d’habitude, et le robot tombe ; les rendant totalement inadaptés à une utilisation quotidienne en environnement réel. Ces réalisations, bien que remarquables sur le plan mécanique et électronique, manquaient cruellement de la flexibilité cognitive nécessaire à une utilité pratique. Autrement dit, il leur manquait un “cerveau”.

C’est alors qu’en 2018, des chercheurs de Google publièrent un article de recherche qui allait tout changer : Attention is all you need. Cet article présente une nouvelle architecture d’IA appelée le Transformer, qui présente de nombreux atouts face aux modèles existants, dont une haute capacité de parallélisation. Ce modèle est tellement efficace qu’il est a l’origine de tous les outils d’IA générative que l’on connait aujourd’hui, dont GPT4, pour Generative Pre-trained Transformer v4.

Quand un Transformer est entraîné sur du texte, on parle alors de modèle de langage à grande échelle (LLM). Ces modèles, capables de comprendre des instructions et de générer des réponses cohérentes, sont actuellement en train de transformer notre manière de travailler. En arrière-plan se prépare une révolution encore plus grande, car ces LLM ont rapidement évolués vers des fonctionnalités multimodales, i.e. capables de traiter et générer non seulement du texte mais aussi des images, des vidéos, de la musique, et des actions motrices ! En effet, le voici notre “cerveau” robotique généraliste que l’on attendait tant. Les LLM sont capable de donner aux robots humanoïdes une capacité à interagir avec le monde réel et d’apprendre à faire des tâches concrètes sans avoir été rigidement programmé pour. On parle alors de capacité “Zéro-shot”. On demande au robot de faire une tâche, e.g. “Fais-moi un café” ou “Fait la vaisselle” et celui-ci s’exécute sans pour autant avoir déjà été spécifiquement à notre modele de machine à café ou au type de vaisselle utilisé, comme en témoigne cette impressionnante vidéo de démonstration du Figure 01 augmenté avec GPT 4 Vision.

Les images des caméras du robot et les instructions transcrites de la parole capturées par les microphones embarqués sont soumises à un LLM Visuel. Celui-ci est ensuite capable d’identifier les éléments et leurs positions, et générer un set d’instructions pour effectuer la tâche, e.g.

Prendre la capsule de café Ouvrir le levier de la machine Insérer la capsule Appuyer sur bouton

Etc.

Pour s’en rendre compte, prenez une photo de votre machine à café, et envoyez-la à GPT4. Demandez-lui ensuite comment s’en servir, celui-ci vous donnera alors sans faute la liste des actions à suivre pour faire un café.

Il faut ensuite transformer ces actions en commandes moteur sur les actionneurs du robot. Pour cela, on utilise un second réseau neuronal de manipulation. Celui-ci est entrainé à faire cette transformation et permet de produire les instructions suivantes :

Poignet gauche : Translation [0.32m, 0.71m, 0m], Rotation [10°, 25°, -7°]

Épaule gauche : Translation [0m, 0m, 0m], Rotation [-47°, 0°, 13°]

Etc.

Alternativement, Google Deepmind semble développer un modèle de Vision Language Action (VLA) combinant à la fois le LLM Visuel et le réseau neuronal de manipulation dans un seul modèle. Celui-ci peut prendre en entrée a la fois l’instruction, les images des caméras et l’état du robot (position des membres, orientation, etc..) et sortir directement les commandes des actionneur.

Le schéma ci-dessous représente ma compréhension personnelle de ce processus en s’inspirant des divers éléments présentés par Figure et DeepMind.