المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل يمكن لوكلاء الترميز بالذكاء الاصطناعي إعادة إنتاج نتائج منشورة في العلوم الاجتماعية؟
في عمل جديد مع @_mohsen_m، فابريتسيو جيلاردي، و@j_a_tucker، نقدم SocSci-Repro-Bench — وهو معيار ل 221 مهمة تكرار من 54 ورقة بحثية — ونقيم عاملين مميزين للترميز: كود كلود وكودكس.
تكشف النتائج عن قدرات مذهلة ومخاطر جديدة للعلوم المدعومة بالذكاء الاصطناعي.
------------------------------------
الهدف
--------
كان هدف التصميم الرئيسي هو فصل مشكلتين مختلفتين:
1️⃣ هل مواد النسخ نفسها قابلة للتكرار؟
2️⃣ هل يمكن لوكلاء الذكاء الاصطناعي إعادة إنتاج النتائج عندما تكون المواد قابلة للتنفيذ؟
لعزل أداء الوكيل، قمنا فقط بتضمين مهام كانت مخرجاتها متطابقة عبر ثلاثة عمليات تنفيذ يدوية مستقلة.
------------------------------------
التصميم
--------
الوكلاء المستلم:
• بيانات مجهولة الهوية + كود
• بيئة تنفيذ مفتوحة
كان عليهم أن يكونوا بشكل مستقل:
• تبعيات التثبيت
• تصحيح الشيفرة المعطلة
• تنفيذ خط الأنابيب
• استخراج النتائج المطلوبة
باختصار: إعادة إنتاج حسابية شاملة من طرف إلى طرف.
------------------------------------
النتائج...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
