Stavo aspettando che questo venisse pubblicato su Arxiv, ma qualunque cosa dica Dario corrisponde ai nostri benchmark su ROSClaw quando testiamo agenti che incarnano robot diversi. Modelli diversi hanno caratteristiche comportamentali e preoccupazioni diverse riguardo all'interazione con il mondo reale. È molto strano e interessante da osservare.