🪜Представляємо: StepWiser🦉 📝: - Переосмислює поетапне моделювання винагороди як завдання на міркування: виводить CoT + судження. - Навчено за допомогою РЛ з використанням відносних результатів розгортань. Результатів: (1) Виступ SOTA на ProcessBench! (2) Удосконалює політику під час поїздів. (3) Удосконалює пошук під час висновків. 🧵1/5
78,9K