🪜Apresentando: StepWiser🦉 📝: - Reformula a modelagem de recompensa passo a passo como uma tarefa de raciocínio: produz CoT + julgamento. - Treinado pela RL usando resultados relativos de implementações. Resultados: (1) Desempenho SOTA no ProcessBench! (2) Melhora a política no horário do trem. (3) Melhora a pesquisa em tempo de inferência. 🧵1/5
78,92K