Могут ли агенты программирования на основе ИИ воспроизводить опубликованные результаты социальных наук? В новой работе с @_mohsen_m, Фабрицио Джиларди и @j_a_tucker мы представляем SocSci-Repro-Bench — эталон из 221 задачи на воспроизводимость из 54 статей — и оцениваем двух передовых агентов программирования: Claude Code и Codex. Результаты показывают как замечательные возможности, так и новые риски для науки с поддержкой ИИ. ------------------------------------ GOAL -------- Ключевой целью дизайна было разделение двух различных проблем: 1️⃣ Являются ли материалы для репликации воспроизводимыми? 2️⃣ Могут ли агенты ИИ воспроизводить результаты, когда материалы исполняемы? Чтобы изолировать производительность агентов, мы включили только задачи, результаты которых были идентичны при трех независимых ручных исполнениях. ------------------------------------ DESIGN -------- Агенты получили: • анонимизированные данные + код • изолированную среду выполнения Им нужно было автономно: • установить зависимости • отладить сломанный код • выполнить конвейер • извлечь запрашиваемые результаты Короче говоря: полное вычислительное воспроизводство. ------------------------------------ RESULTS...