Riepilogo dell'Evento di Anteprima ARC-AGI-3 @GregKamradt illustra la nostra tesi sul Benchmark di Ragionamento Interattivo * Perché i benchmark statici non sono sufficienti per misurare le capacità agentiche * L'approccio del Premio ARC per creare benchmark interattivi
18,1K