🪜Einführung: StepWiser🦉 📝: - Reformuliert schrittweise Belohnungsmodellierung als eine Denkaufgabe: gibt CoT + Urteil aus. - Durch RL mit relativen Ergebnissen von Rollouts trainiert. Ergebnisse: (1) SOTA-Leistung auf ProcessBench! (2) Verbessert die Politik zur Trainingszeit. (3) Verbessert die Suche zur Inferenzzeit. 🧵1/5
78,91K