🪜介紹:StepWiser🦉 📝: - 將逐步獎勵建模重新框定為推理任務:輸出 CoT + 判斷。 - 通過使用相對結果的回滾進行 RL 訓練。 結果: (1) 在 ProcessBench 上達到 SOTA 性能! (2) 在訓練時改善策略。 (3) 改善推理時的搜索。 🧵1/5
78.91K