Z příspěvku @tobyordoxford. Existují dobré veřejné důkazy o tom, jak široké jsou dovednosti, které se LLM učí od RL? Jaký je například nejpřesvědčivější příklad transferového učení v RL? Kde výcvik v určitém prostředí vede k lepším schopnostem v některých zcela odlišných oblastech? Vím, že zřejmou odpovědí by zde mohlo být ukázat na GPT 5. Jakkoli je to lepší v obecném uvažování než GPT 4o, je to pravděpodobně kvůli RL.