1/ Kaikki kilpailevat rakentaakseen tekoälyä, joka ohjaa robotin niveliä ja lihaksia. Lähes kukaan ei kysy eri kysymystä: mitä tapahtuu, kun annat tekoälyagentille pääsyn robottiin samalla tavalla kuin se käyttää verkkoselainta tai koodieditoria, työkaluna? Nämä ovat kaksi hyvin erilaista arkkitehtuuria. Tässä syyt, miksi molemmat ovat tärkeitä:
2/ VLA:t ja VLM:t tekevät uskomatonta edistystä matalan tason robottien ohjauksessa. Näkö sisään, motoriset käskyt ulos. Alusta päähän. Mutta on myös toinen kerros, joka saa vähemmän huomiota. Se on "tehtävien orkestrointia". Ei "siirrä niveliä 3–45 astetta", vaan "käy katsomassa, onko paketti saapunut etuovelle ja kerro mitä näet". (Korkeatasoista ajattelua) Suunnittelua. Konteksti. Muisto. Monivaiheinen päättely. Päättää, mitä ominaisuuksia käyttää ja missä järjestyksessä.
3/ Ajattele, miten ihmiset toimivat. Pikkuaivosi hoitaa tasapainon ja motorisen koordinaation. Et ajattele sitä. Prefrontaalinen aivokuori hoitaa suunnittelun, eli "Minun täytyy ottaa avaimet ja lukita ovi, mutta tarkista ensin, onko liesi pois päältä". VLA-aalto "potentiaalisesti" rakentaa parempia pikkuaivoja. Mutta robotti tarvitsee myös jotain, joka osaa suunnitella, muistaa, esittää kysymyksiä ja selittää, mitä se tekee. Nämä eivät ole kilpailevia lähestymistapoja. Ne ovat saman pinon eri kerroksia.
4/ Olemme kokeilleet LLM-agenttien yhdistämistä oikeisiin ROS2-robotteihin. Ei nivelten hallintaa, vaan agentille annetaan työkaluja aiheiden julkaisemiseen, palveluihin soittamiseen, sensorien lukemiseen. Mikä yllätti meidät, oli esiin noussut käyttäytyminen. Agentti tarkistaa kameran ennen navigointia. Seuraa akkua kesken tehtävän ja säätää. Kysyy "sohvan lähellä on kaksi esinettä ... kumpi niistä?" kun ohje on epäselvä. Kukaan ei ohjelmoinut mitään noista. Se katoaa luonnollisesti ajattelusta.
5/ Tässä on jotain, mitä emme odottaneet: ROS2:n tyyppijärjestelmä osoittautuu vahingossa LLM-luettavaksi. Kun agentti näkee "/cmd_vel" (geometry_msgs/msg/Twist) tai "/navigate_to_pose" (NavigateToPose), se tietää jo, mitä ne tarkoittavat. Ei manifestia. Ei kykytiedostoa. Annat sille robotin live-aihekaavion, ja se selvittää, mihin robotti pystyy. Koko ROS2-ekosysteemi muuttuu työkalukirjastoksi, jota agentti voi selata.
914