Estava à espera que isto fosse para o Arxiv, mas o que quer que o Dario diga corresponde aos nossos benchmarks no ROSClaw quando testamos agentes que incorporam diferentes robôs. Modelos diferentes têm características comportamentais e preocupações diferentes ao interagir com o mundo real. Muito estranho e interessante de observar