🪜Esittelyssä: StepWiser🦉 📝: - Muotoilee palkitsemismallinnuksen vaiheittain uudelleen päättelytehtäväksi: tulostaa CoT + harkinta. - RL:n kouluttama käyttämällä käyttöönottojen suhteellisia tuloksia. Tulokset: (1) SOTA-esitys ProcessBenchissä! (2) Parantaa politiikkaa juna-ajoissa. (3) Parantaa päättelyaikaista hakua. 🧵1/5
78,92K