🪜Wprowadzenie: StepWiser🦉 📝: - Przekształca modelowanie nagród krokowych w zadanie rozumowania: generuje CoT + osąd. - Trenowany przez RL z wykorzystaniem względnych wyników symulacji. Wyniki: (1) SOTA wydajność na ProcessBench! (2) Poprawia politykę w czasie treningu. (3) Poprawia wyszukiwanie w czasie wnioskowania. 🧵1/5
78,91K