1/ Tout le monde s'empresse de construire des IA qui contrôlent les articulations et les muscles des robots. Presque personne ne pose une question différente : que se passe-t-il lorsque vous donnez à un agent IA accès à un robot de la même manière qu'il accède à un navigateur web ou à un éditeur de code, en tant qu'outil ? Ce sont deux architectures très différentes. Voici pourquoi les deux sont importantes :
2/ Les VLAs et VLMs progressent incroyablement dans le contrôle des robots à bas niveau. Vision en entrée, commandes moteur en sortie. De bout en bout. Mais il y a une autre couche qui reçoit moins d'attention. C'est "l'orchestration des tâches". Pas "déplacer l'articulation 3 à 45 degrés" mais "vérifie si le colis est arrivé à la porte d'entrée et fais-moi savoir ce que tu vois". (Pensée de haut niveau) Planification. Contexte. Mémoire. Raisonnement multi-étapes. Décider quelles capacités utiliser et dans quel ordre.
3/ Pensez à la façon dont les humains fonctionnent. Votre cervelet gère l'équilibre et la coordination motrice. Vous n'y pensez pas. Votre cortex préfrontal gère la planification, c'est-à-dire "Je dois prendre mes clés, puis verrouiller la porte, mais d'abord vérifier si le gaz est éteint". L'onde VLA est "potentiellement" en train de construire de meilleurs cervelets. Mais un robot a aussi besoin de quelque chose qui peut planifier, se souvenir, poser des questions et expliquer ce qu'il fait. Ce ne sont pas des approches concurrentes. Ce sont différentes couches de la même pile.
4/ Nous avons expérimenté la connexion d'agents LLM à de véritables robots ROS2. Pas pour contrôler les articulations, mais pour donner à l'agent des outils pour publier des sujets, appeler des services, lire des capteurs. Ce qui nous a surpris, c'est le comportement émergent. L'agent vérifie la caméra avant de naviguer. Il surveille la batterie en cours de tâche et s'ajuste. Il demande "il y a deux objets près du canapé... lequel ?" lorsque l'instruction est ambiguë. Personne n'a programmé cela. Cela découle naturellement du raisonnement.
5/ Voici quelque chose que nous ne nous attendions pas : Le système de types de ROS2 s'avère être accidentellement lisible par les LLM. Lorsque l'agent voit “/cmd_vel” (geometry_msgs/msg/Twist) ou “/navigate_to_pose” (NavigateToPose), il sait déjà ce que cela signifie. Pas de manifeste. Pas de fichier de capacité. Vous lui donnez simplement le graphe de sujets en direct du robot et il détermine ce que le robot peut faire. Tout l'écosystème ROS2 devient une bibliothèque d'outils que l'agent peut parcourir.
938