Kunnen AI-coderingsagenten gepubliceerde bevindingen uit de sociale wetenschappen reproduceren? In nieuw werk met @_mohsen_m, Fabrizio Gilardi en @j_a_tucker, introduceren we SocSci-Repro-Bench — een benchmark van 221 reproduceerbaarheidstaken uit 54 artikelen — en evalueren we twee geavanceerde coderingsagenten: Claude Code en Codex. De resultaten onthullen zowel opmerkelijke mogelijkheden als nieuwe risico's voor AI-ondersteunde wetenschap. ------------------------------------ GOAL -------- Een belangrijk ontwerpgdoel was het scheiden van twee verschillende problemen: 1️⃣ Zijn de replicatiematerialen zelf reproduceerbaar? 2️⃣ Kunnen AI-agenten resultaten reproduceren wanneer materialen uitvoerbaar zijn? Om de prestaties van de agent te isoleren, hebben we alleen taken opgenomen waarvan de uitkomsten identiek waren bij drie onafhankelijke handmatige uitvoeringen. ------------------------------------ ONTWERP -------- Agenten ontvingen: • geanonimiseerde gegevens + code • een sandboxed uitvoeringsomgeving Ze moesten autonoom: • afhankelijkheden installeren • gebroken code debuggen • de pipeline uitvoeren • de gevraagde resultaten extraheren Kortom: end-to-end computationele reproductie. ------------------------------------ RESULTATEN...