Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Todos estão a correr para construir IA que controla articulações e músculos de robôs. Quase ninguém está a fazer uma pergunta diferente: o que acontece quando se dá a um agente de IA acesso a um robô da mesma forma que ele acede a um navegador web ou a um editor de código, como uma ferramenta?
Essas são duas arquiteturas muito diferentes. Aqui está o porquê de ambas serem importantes:
2/ VLAs e VLMs estão a fazer progressos incríveis no controlo de robôs de baixo nível. Visão a entrar, comandos de motor a sair. De ponta a ponta.
Mas há outra camada que recebe menos atenção.
É a "orquestração de tarefas".
Não "mover a junta 3 para 45 graus", mas "vai verificar se o pacote chegou à porta da frente e avisa-me o que vês". (Pensamento de alto nível)
Planeamento. Contexto. Memória. Raciocínio em múltiplos passos. Decidir quais capacidades usar e em que ordem.
3/ Pense sobre como os humanos funcionam.
O seu cerebelo lida com o equilíbrio e a coordenação motora. Você não pensa nisso.
O seu córtex pré-frontal lida com o planejamento, ou seja, "preciso pegar as minhas chaves, depois trancar a porta, mas primeiro verificar se o fogão está desligado".
A onda VLA está "potencialmente" a construir cerebelos melhores. Mas um robô também precisa de algo que possa planejar, lembrar, fazer perguntas e explicar o que está a fazer.
Estas não são abordagens concorrentes. São diferentes camadas da mesma pilha.
4/ Temos estado a experimentar a ligação de agentes LLM a robôs reais ROS2. Não estamos a controlar articulações, mas a dar ao agente ferramentas para publicar tópicos, chamar serviços e ler sensores.
O que nos surpreendeu foi o comportamento emergente.
O agente verifica a câmara antes de navegar. Monitora a bateria durante a tarefa e ajusta. Pergunta "há dois objetos perto do sofá... qual deles?" quando a instrução é ambígua.
Ninguém programou nada disso. Surge naturalmente do raciocínio.
5/ Aqui está algo que não esperávamos:
O sistema de tipos do ROS2 acaba por ser acidentalmente legível por LLM.
Quando o agente vê “/cmd_vel” (geometry_msgs/msg/Twist) ou “/navigate_to_pose” (NavigateToPose), ele já sabe o que isso significa. Sem manifesto. Sem arquivo de capacidade.
Você apenas entrega ao agente o gráfico de tópicos ao vivo do robô e ele descobre o que o robô pode fazer.
Todo o ecossistema ROS2 torna-se uma biblioteca de ferramentas que o agente pode explorar.
916
Top
Classificação
Favoritos
