🪜Presentazione: StepWiser🦉 📝: - Riformula la modellazione dei premi passo-passo come un compito di ragionamento: produce CoT + giudizio. - Addestrato tramite RL utilizzando risultati relativi delle rollout. Risultati: (1) Prestazioni SOTA su ProcessBench! (2) Migliora la politica durante il tempo di addestramento. (3) Migliora la ricerca durante il tempo di inferenza. 🧵1/5
78,91K