@tobyordoxfordの投稿から。 LLMがRLから学ぶスキルがどれほど広いかについての十分な公的証拠はありますか? たとえば、RLにおける転移学習の最も説得力のある例は何ですか?特定の環境でのトレーニングが、まったく異なる領域での能力の向上につながるのはどこですか? ここでの明白な答えは、GPT 5 を指すことかもしれません。GPT 4o よりも一般的な思考が優れているとしても、RL によるものである可能性があります。