🪜Presentamos: StepWiser🦉 📝: - Reenmarca el modelado de recompensas por pasos como una tarea de razonamiento: produce CoT + juicio. - Entrenado por RL utilizando resultados relativos de rollouts. Resultados: (1) ¡Rendimiento SOTA en ProcessBench! (2) Mejora la política en el tiempo de entrenamiento. (3) Mejora la búsqueda en el tiempo de inferencia. 🧵1/5
78,92K