🪜Présentation : StepWiser🦉 📝 : - Reformule la modélisation des récompenses par étapes comme une tâche de raisonnement : produit CoT + jugement. - Entraîné par RL en utilisant les résultats relatifs des déploiements. Résultats : (1) Performance SOTA sur ProcessBench ! (2) Améliore la politique pendant l'entraînement. (3) Améliore la recherche en temps d'inférence. 🧵1/5
78,92K