🪜Giới thiệu: StepWiser🦉 📝: - Định hình lại mô hình thưởng từng bước như một nhiệm vụ lý luận: xuất ra CoT + phán đoán. - Được đào tạo bằng RL sử dụng kết quả tương đối của các lần triển khai. Kết quả: (1) Hiệu suất SOTA trên ProcessBench! (2) Cải thiện chính sách trong thời gian đào tạo. (3) Cải thiện tìm kiếm thời gian suy diễn. 🧵1/5
78,91K