🪜Vă prezentăm: StepWiser🦉 📝: - Reformulează modelarea recompensei pas cu pas ca o sarcină de raționament: produce CoT + judecată. - Instruit de RL folosind rezultatele relative ale implementărilor. Rezultatele: (1) Performanța SOTA pe ProcessBench! (2) Îmbunătățește politica la ora trenului. (3) Îmbunătățește căutarea în timp de inferență. 🧵1/5
78,92K