🪜紹介: StepWiser🦉 📝: - 段階的な報酬モデリングを推論タスクとして再構成します: CoT + 判断を出力します。 - ロールアウトの相対的な結果を使用して RL によってトレーニングされます。 業績: (1) ProcessBenchでのSOTA性能! (2) 列車時間のポリシーを改善します。 (3) 推論時検索を改善しました。 🧵1/5
78.91K