来自 @tobyordoxford 的帖子。 是否有良好的公共证据表明 LLMs 从 RL 学习的技能有多广泛? 例如,RL 中最有说服力的迁移学习例子是什么?在特定环境中的训练如何导致在一些截然不同的领域中更好的能力? 我知道这里一个明显的答案可能是直接指向 GPT 5。然而,它在一般思维方面比 GPT 4 更优秀,很可能是由于 RL。