Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Herkes robot eklemlerini ve kaslarını kontrol eden bir yapay zeka inşa etmek için yarışıyor. Neredeyse kimse farklı bir soru sormuyor: Bir yapay zeka ajanına bir robota, web tarayıcısına veya kod düzenleyiciye eriştiği gibi bir araç olarak erişim verdiğinizde ne olur?
Bunlar iki çok farklı mimari. İşte her ikisinin de neden önemli olduğu:
2/ VLA'lar ve VLM'ler düşük seviyeli robot kontrolünde inanılmaz ilerleme kaydediyor. Görüş girer, motor komutlar dışarı. Baştan sona.
Ama daha az dikkat çeken başka bir katman daha var.
Bu "görev orkestrasyonu".
"Joint 3 ile 45 derece hareket ettir" değil, "paketin ön kapıya gelip gelmediğini kontrol et ve ne gördüğünü bana bildir" demek. (Yüksek seviyede düşünme)
Planlama. Bağlam. Hafıza. Çok adımlı akıl yürütme. Hangi yetenekleri ve hangi sırayla kullanacağıma karar vermek.
3/ İnsanların nasıl çalıştığını düşünün.
Beyincik denge ve motor koordinasyonu yönetir. Bunu düşünmüyorsun.
Prefrontal korteksiniz planlamayı yönetir, yani "Anahtarlarımı almam gerekiyor, sonra kapıyı kilitlemem gerekiyor, ama önce ocağın kapalı olup olmadığını kontrol et."
VLA dalgası "potansiyel" olarak daha iyi serebelumlar inşa ediyor. Ama bir robotun aynı zamanda plan yapabilen, hatırlayabilen, soru sorabilecek ve ne yaptığını açıklayabilen bir şeye ihtiyacı vardır.
Bunlar rekabet eden yaklaşımlar değil. Aynı yığının farklı katmanlarıdır.
4/ LLM ajanlarını gerçek ROS2 robotlarına bağlama konusunda deneyler yapıyoruz. Eklemleri kontrol etmek değil, ajana konuları yayınlamak, hizmetleri aramak, sensörleri okumak için araçlar veriyordu.
Bizi şaşırtan şey, ortaya çıkan davranıştı.
Ajan gezinmeden önce kamerayı kontrol ediyor. Pili görev ortasında izler ve ayarlar. "Kanepeye yakın iki nesne var ... hangisi?" diye sorar, çünkü talimat belirsizse.
Kimse bunların hiçbirini programlamadı. Bu doğal olarak mantıktan ayrılıyor.
5/ İşte beklemediğimiz bir şey:
ROS2'nin tip sistemi yanlışlıkla LLM okunabilir hale geliyor.
Ajan "/cmd_vel" (geometry_msgs/msg/Twist) veya "/navigate_to_pose" (NavigateToPose) gördüğünde, bunların ne anlama geldiğini zaten bilir. Manifesto yok. Yetenek dosyası yok.
Robotun canlı konu grafiğini veriyorsunuz ve robotun neler yapabileceğini hesaplıyor.
Tüm ROS2 ekosistemi, ajanın gezebileceği bir araç kütüphanesi haline gelir.
936
En İyiler
Sıralama
Takip Listesi
