Z posta @tobyordoxford. Czy istnieją dobre publiczne dowody na to, jak szerokie umiejętności LLM-y uczą się z RL? Na przykład, jaki jest najbardziej przekonujący przykład transferu wiedzy w RL? Gdzie trening w konkretnym środowisku prowadzi do lepszych możliwości w dość odmiennych dziedzinach? Wiem, że oczywistą odpowiedzią może być wskazanie na GPT 5. Jednak to, jak bardzo lepiej radzi sobie z ogólnym myśleniem w porównaniu do GPT 4, prawdopodobnie wynika z RL.