🪜介绍:StepWiser🦉 📝: - 将逐步奖励建模重新框定为推理任务:输出 CoT + 判断。 - 通过使用相对结果的回滚进行 RL 训练。 结果: (1) 在 ProcessBench 上达到 SOTA 性能! (2) 在训练时改善策略。 (3) 改善推理时的搜索。 🧵1/5
78.91K