Ждал, когда это появится на Arxiv, но что бы Дарио ни говорил, это соответствует нашим бенчмаркам на ROSClaw, когда мы тестируем агентов, воплощающих разные роботы. Разные модели имеют разные поведенческие характеристики и опасения по поводу взаимодействия с реальным миром. Очень странно и интересно наблюдать.