來自 @tobyordoxford 的帖子。 是否有良好的公共證據表明 LLMs 從 RL 學習的技能有多廣泛? 例如,RL 中最有說服力的遷移學習例子是什麼?在特定環境中的訓練如何導致在一些截然不同的領域中更好的能力? 我知道這裡一個明顯的答案可能是直接指向 GPT 5。然而,它在一般思維方面比 GPT 4 更優秀,很可能是由於 RL。