1/ Toată lumea se grăbește să construiască o inteligență artificială care să controleze articulațiile și mușchii roboților. Aproape nimeni nu pune o întrebare diferită: ce se întâmplă când oferi unui agent AI acces la un robot în același mod în care accesează un browser web sau un editor de cod, ca un instrument? Acestea sunt două arhitecturi foarte diferite. Iată de ce contează ambele:
2/ VLA-urile și VLM-urile fac progrese incredibile în controlul roboților la nivel scăzut. Vedere înăuntru, comenzi motorii afară. De la un capăt la altul. Dar există un alt strat care atrage mai puțină atenție. Este "orchestrare de sarcini". Nu "mută articulația 3 la 45 de grade", ci "du-te să verifici dacă pachetul a ajuns la ușa de la intrare și spune-mi ce vezi". (Gândire la nivel înalt) Planificare. Context. Memorie. Raționament în mai mulți pași. Să decidă ce capabilități să folosească și în ce ordine.
3/ Gândește-te la modul în care funcționează oamenii. Cerebelul tău gestionează echilibrul și coordonarea motorie. Nu te gândești la asta. Cortexul tău prefrontal se ocupă de planificare, adică "Trebuie să-mi iau cheile, apoi să încui ușa, dar mai întâi verifică dacă aragazul este oprit". Valul VLA construiește "potențial" cerebeli mai buni. Dar un robot are nevoie și de ceva care să poată planifica, să-și amintească, să pună întrebări și să explice ce face. Acestea nu sunt abordări concurente. Sunt straturi diferite ale aceleiași stive.
4/ Am experimentat conectarea agenților LLM la roboți ROS2 reali. Nu controlează articulațiile, ci oferă agentului instrumente pentru a publica subiecte, a suna la servicii, a citi senzori. Ce ne-a surprins a fost comportamentul emergent. Agentul verifică camera înainte de a naviga. Monitorizează bateria în timpul sarcinii și ajustează. Întreabă: "sunt două obiecte lângă canapea ... care dintre ele?" când instrucțiunea este ambiguă. Nimeni nu a programat nimic din toate astea. Aceasta iese firesc din raționament.
5/ Iată ceva la care nu ne așteptam: Sistemul de tipuri al ROS2 se dovedește a fi accidental lizibil de către LLM. Când agentul vede "/cmd_vel" (geometry_msgs/msg/Twist) sau "/navigate_to_pose" (NavigateToPose), deja știe ce înseamnă acestea. Fără manifest. Niciun fișier de capabilități. Pur și simplu îi dai graficul topic live al robotului și el își dă seama ce poate face robotul. Întregul ecosistem ROS2 devine o bibliotecă de unelte pe care agentul o poate răsfoi.
946