DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Kan AI-kodningsagenter reproducera publicerade samhällsvetenskapliga fynd? I nytt arbete med @_mohsen_m, Fabrizio Gilardi och @j_a_tucker introducerar vi SocSci-Repro-Bench — en referenspunkt med 221 reproducerbarhetsuppgifter från 54 artiklar — och utvärderar två frontier coding agents: Claude Code och Codex. Resultaten visar både på anmärkningsvärda förmågor och nya risker för AI-assisterad vetenskap. ------------------------------------ MÅL -------- Ett viktigt designmål var att separera två olika problem: 1️⃣ Är replikationsmaterial själva reproducerbara? 2️⃣ Kan AI-agenter reproducera resultat när material är exekverbart? För att isolera agentens prestanda inkluderade vi endast uppgifter vars utdata var identiska över tre oberoende manuella körningar. ------------------------------------ DESIGN -------- Agenter mottog: • anonymiserad data + kod • en sandboxad exekveringsmiljö De var tvungna att autonomt: • installationsberoenden • felsöka trasig kod • köra pipelinen • extrahera de begärda resultaten Kort sagt: beräkningsreproduktion från början till slut. ------------------------------------ RESULTAT...

Topp

Rankning

Favoriter