З допису @tobyordoxford. Чи існують переконливі публічні докази того, наскільки широкими є навички, які LLM освоюють у RL? Наприклад, який найпереконливіший приклад трансферного навчання в РЛ? Де навчання в певному середовищі призводить до кращих здібностей у досить несхожих сферах? Я знаю, що очевидною відповіддю тут може бути просто вказати на GPT 5. Однак це краще в загальному мисленні, ніж GPT 4o, швидше за все, пов'язано з RL.