🪜Presentamos: StepWiser🦉 📝: - Replantea el modelado de recompensa paso a paso como una tarea de razonamiento: genera CoT + juicio. - Entrenado por RL utilizando resultados relativos de implementaciones. Resultados: (1) ¡Rendimiento de SOTA en ProcessBench! (2) Mejora la política a la hora del tren. (3) Mejora la búsqueda en tiempo de inferencia. 🧵1/5
78.92K