🪜Introductie: StepWiser🦉 📝: - Herformuleert stapgewijze beloningsmodellering als een redeneertaak: levert CoT + oordeel op. - Getraind door RL met behulp van relatieve uitkomsten van rollouts. Resultaten: (1) SOTA-prestaties op ProcessBench! (2) Verbeterd beleid tijdens de training. (3) Verbeterde zoekopdracht tijdens inferentietijd. 🧵1/5
78,92K