1/ Все спешат создать ИИ, который управляет суставами и мышцами роботов. Почти никто не задается другим вопросом: что произойдет, если вы предоставите ИИ-агенту доступ к роботу так же, как он получает доступ к веб-браузеру или редактору кода, как к инструменту? Это две совершенно разные архитектуры. Вот почему обе важны:
2/ VLAs и VLMs делают невероятные успехи в управлении низкоуровневыми роботами. Визуальная информация поступает, команды для моторов выходят. От начала до конца. Но есть еще один уровень, который получает меньше внимания. Это "оркестрация задач". Не "переместить сустав 3 на 45 градусов", а "проверь, пришла ли посылка на переднюю дверь, и дай мне знать, что ты видишь". (Высокоуровневое мышление) Планирование. Контекст. Память. Многоступенчатое рассуждение. Решение, какие возможности использовать и в каком порядке.
3/ Подумайте о том, как работают люди. Ваш мозжечок отвечает за равновесие и моторную координацию. Вы не думаете об этом. Ваш префронтальная кора отвечает за планирование, т.е. "Мне нужно взять ключи, затем закрыть дверь, но сначала проверить, выключена ли плита". Волна VLA "потенциально" создает лучшие мозжечки. Но роботу также нужно что-то, что может планировать, запоминать, задавать вопросы и объяснять, что он делает. Это не конкурирующие подходы. Это разные уровни одного и того же стека.
4/ Мы экспериментируем с подключением агентов LLM к реальным роботам ROS2. Не для управления суставами, а для предоставления агенту инструментов для публикации тем, вызова сервисов, считывания датчиков. Что нас удивило, так это возникающее поведение. Агент проверяет камеру перед навигацией. Мониторит заряд батареи в процессе задачи и корректирует действия. Спрашивает: "рядом с диваном два объекта... какой из них?", когда инструкция неоднозначна. Никто этого не программировал. Это возникает естественным образом из рассуждений.
5/ Вот что мы не ожидали: Система типов ROS2 оказывается случайно читаемой для LLM. Когда агент видит “/cmd_vel” (geometry_msgs/msg/Twist) или “/navigate_to_pose” (NavigateToPose), он уже знает, что это значит. Никакого манифеста. Никакого файла возможностей. Вы просто передаете ему живую графику тематики робота, и он понимает, что робот может делать. Вся экосистема ROS2 становится библиотекой инструментов, которую агент может просматривать.
929