Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Tutti stanno correndo per costruire AI che controllano le articolazioni e i muscoli dei robot. Quasi nessuno sta ponendo una domanda diversa: cosa succede quando dai a un agente AI accesso a un robot nello stesso modo in cui accede a un browser web o a un editor di codice, come strumento?
Queste sono due architetture molto diverse. Ecco perché entrambe sono importanti:
2/ I VLA e i VLM stanno facendo progressi incredibili nel controllo robotico a basso livello. Visione in, comandi motori in uscita. End-to-end.
Ma c'è un altro livello che riceve meno attenzione.
È la "orchestrazione dei compiti".
Non "muovi il giunto 3 a 45 gradi" ma "vai a controllare se il pacco è arrivato alla porta d'ingresso e fammi sapere cosa vedi". (Pensiero di alto livello)
Pianificazione. Contesto. Memoria. Ragionamento multi-step. Decidere quali capacità utilizzare e in quale ordine.
3/ Pensa a come funzionano gli esseri umani.
Il tuo cervelletto gestisce l'equilibrio e la coordinazione motoria. Non ci pensi.
La tua corteccia prefrontale gestisce la pianificazione, cioè "Devo prendere le mie chiavi, poi chiudere la porta, ma prima controllare se il fornello è spento".
L'onda VLA sta "potenzialmente" costruendo cervelletti migliori. Ma un robot ha anche bisogno di qualcosa che possa pianificare, ricordare, fare domande e spiegare cosa sta facendo.
Questi non sono approcci in competizione. Sono diversi strati della stessa pila.
4/ Abbiamo sperimentato il collegamento di agenti LLM a veri robot ROS2. Non controllando le articolazioni, ma dando all'agente strumenti per pubblicare argomenti, chiamare servizi, leggere sensori.
Ciò che ci ha sorpreso è stato il comportamento emergente.
L'agente controlla la telecamera prima di navigare. Monitora la batteria durante il compito e si adatta. Chiede “ci sono due oggetti vicino al divano ... quale?” quando l'istruzione è ambigua.
Nessuno ha programmato nulla di tutto ciò. Emergere naturalmente dal ragionamento.
5/ Ecco qualcosa che non ci aspettavamo:
Il sistema di tipi di ROS2 si rivela essere accidentalmente leggibile da LLM.
Quando l'agente vede “/cmd_vel” (geometry_msgs/msg/Twist) o “/navigate_to_pose” (NavigateToPose), sa già cosa significano. Nessun manifesto. Nessun file di capacità.
Basta fornirgli il grafo dei topic live del robot e lui capisce cosa può fare il robot.
L'intero ecosistema ROS2 diventa una libreria di strumenti che l'agente può esplorare.
924
Principali
Ranking
Preferiti
