DApp Store | Centrum Web3 pro události a hry

Populární témata

Mohou AI kódující agenti reprodukovat publikované poznatky ze společenských věd? V nové práci s @_mohsen_m, Fabriziem Gilardim a @j_a_tucker představujeme SocSci-Repro-Bench — benchmark 221 reprodukovatelných úkolů z 54 článků — a hodnotíme dva frontier coding agenty: Claude Code a Codex. Výsledky odhalují jak pozoruhodné schopnosti, tak nová rizika pro vědu podporovanou umělou inteligencí. ------------------------------------ CÍL -------- Klíčovým cílem návrhu bylo oddělit dva různé problémy: 1️⃣ Jsou replikační materiály samy o sobě reprodukovatelné? 2️⃣ Mohou AI agenti reprodukovat výsledky, když jsou materiály spustitelné? Pro izolaci výkonu agenta jsme zahrnuli pouze úlohy, jejichž výstupy byly totožné ve třech nezávislých ručních provedeních. ------------------------------------ KONSTRUKCE -------- Obdrželi agenti: • anonymizovaná data + kód • prostředí pro popravu v sandboxu Museli autonomně: • instalační závislosti • ladění nefunkčního kódu • spustit pipeline • extrahovat požadované výsledky Stručně řečeno: end-to-end výpočetní reprodukce. ------------------------------------ VÝSLEDKY...

Top

Hodnocení

Oblíbené