🪜Vi introduserer: StepWiser🦉 📝: - Omformulerer trinnvis belønningsmodellering som en resonnerende oppgave: gir CoT + dømmekraft. - Trent av RL ved hjelp av relative resultater av utrullinger. Resultater: (1) SOTA-ytelse på ProcessBench! (2) Forbedrer politikken ved togtid. (3) Forbedrer søk på slutningstid. 🧵1/5
76,44K