🪜تقديم: StepWiser🦉 📝: - يعيد صياغة نمذجة المكافآت التدريجية كمهمة تفكير: مخرجات CoT + الحكم. - تم تدريبه بواسطة RL باستخدام النتائج النسبية للطرح. النتائج: (1) أداء SOTA على ProcessBench! (2) يحسن السياسة في وقت القطار. (3) يحسن البحث في وقت الاستدلال. 🧵1/5
‏‎78.91‏K