من منشور @tobyordoxford. هل هناك دليل عام جيد على مدى اتساع المهارات التي يتعلمها LLM من RL؟ على سبيل المثال ، ما هو المثال الأكثر إقناعا لنقل التعلم في RL؟ حيث يؤدي التدريب في بيئة معينة إلى قدرات أفضل في بعض المجالات المختلفة تماما؟ أعلم أن الإجابة الواضحة هنا قد تكون مجرد الإشارة إلى GPT 5. على الرغم من أنه أفضل في التفكير العام من GPT 4o ، فمن المحتمل أن يكون بسبب RL.