🪜Apresentando: StepWiser🦉 📝: - Reformula a modelagem de recompensas passo a passo como uma tarefa de raciocínio: produz CoT + julgamento. - Treinado por RL usando resultados relativos de rollouts. Resultados: (1) Desempenho SOTA no ProcessBench! (2) Melhora a política durante o treinamento. (3) Melhora a busca em tempo de inferência. 🧵1/5
78,9K