Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kan AI-kodningsagenter reproducera publicerade samhällsvetenskapliga fynd?
I nytt arbete med @_mohsen_m, Fabrizio Gilardi och @j_a_tucker introducerar vi SocSci-Repro-Bench — en referenspunkt med 221 reproducerbarhetsuppgifter från 54 artiklar — och utvärderar två frontier coding agents: Claude Code och Codex.
Resultaten visar både på anmärkningsvärda förmågor och nya risker för AI-assisterad vetenskap.
------------------------------------
MÅL
--------
Ett viktigt designmål var att separera två olika problem:
1️⃣ Är replikationsmaterial själva reproducerbara?
2️⃣ Kan AI-agenter reproducera resultat när material är exekverbart?
För att isolera agentens prestanda inkluderade vi endast uppgifter vars utdata var identiska över tre oberoende manuella körningar.
------------------------------------
DESIGN
--------
Agenter mottog:
• anonymiserad data + kod
• en sandboxad exekveringsmiljö
De var tvungna att autonomt:
• installationsberoenden
• felsöka trasig kod
• köra pipelinen
• extrahera de begärda resultaten
Kort sagt: beräkningsreproduktion från början till slut.
------------------------------------
RESULTAT...

Topp
Rankning
Favoriter
