🪜Представляем: StepWiser🦉 📝: - Переформулирует пошаговое моделирование вознаграждений как задачу рассуждения: выводит CoT + суждение. - Обучен с помощью RL, используя относительные результаты развертываний. Результаты: (1) SOTA производительность на ProcessBench! (2) Улучшает политику во время обучения. (3) Улучшает поиск во время вывода. 🧵1/5
78,92K