Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Усі змагаються, щоб створити штучний інтелект, який керує суглобами та м'язами роботів. Майже ніхто не ставить іншого питання: що відбувається, коли ви надаєте агенту ШІ доступ до робота так само, як він звертається до веб-браузера чи редактора коду — як до інструменту?
Це дві дуже різні архітектури. Ось чому обидва ці варіанти важливі:
2/ VLA та VLM роблять неймовірний прогрес у низькорівневому керуванні роботами. Зір всередину, моторні команди виходять. Від початку до кінця.
Але є ще один шар, який привертає менше уваги.
Це «оркестрація завдань».
Не «перемістити суглоб на 3–45 градусів», а «перевір, чи прийшла посилка до вхідних дверей, і повідомте мені, що бачите». (Високорівневе мислення)
Планування. Контекст. Пам'ять. Багатокрокове мислення. Вирішувати, які можливості використовувати і в якому порядку.
3/ Подумайте, як працюють люди.
Ваш мозочок відповідає за рівновагу та моторну координацію. Ти не думаєш про це.
Ваша префронтальна кора відповідає за планування, наприклад: «Мені потрібно взяти ключі, потім замкнути двері, але спочатку перевірити, чи не вимкнена плита».
Хвиля VLA «потенційно» будує кращі мозочки. Але роботу також потрібен пристрій, який може планувати, запам'ятовувати, ставити запитання і пояснювати, що він робить.
Це не конкуруючі підходи. Це різні шари одного стеку.
4/ Ми експериментуємо з підключенням LLM-агентів до реальних роботів ROS2. Не контролювати суглоби, а надавати агенту інструменти для публікації тем, дзвінків у служби, читання сенсорів.
Що нас здивувало — це поведінка виникнув.
Агент перевіряє камеру перед тим, як рухатися. Контролює заряд батареї під час роботи і налаштовує його. Запитує: «Біля дивана є два предмети ... який саме?" коли інструкція неоднозначна.
Ніхто нічого з цього не програмував. Це природно виходить із логіки.
5/ Ось щось, чого ми не очікували:
Система типів ROS2 виявляється випадково читабельною LLM.
Коли агент бачить «/cmd_vel» (geometry_msgs/msg/Twist) або «/navigate_to_pose» (NavigateToPose), він уже знає, що це означає. Немає маніфеста. Файлу можливостей немає.
Ви просто даєте йому живий графік теми робота, і він визначає, що робот може робити.
Вся екосистема ROS2 стає бібліотекою інструментів, яку агент може переглядати.
965
Найкращі
Рейтинг
Вибране
