Von @tobyordoxford's Beitrag. Gibt es gute öffentliche Beweise dafür, wie breit die Fähigkeiten sind, die LLMs durch RL erlernen? Zum Beispiel, was ist das überzeugendste Beispiel für Transferlernen in RL? Wo das Training in einer spezifischen Umgebung zu besseren Fähigkeiten in einigen ziemlich unähnlichen Bereichen führt? Ich weiß, eine offensichtliche Antwort hier könnte sein, einfach auf GPT 5 zu zeigen. Wie viel besser es im allgemeinen Denken als GPT 4 ist, könnte wahrscheinlich auf RL zurückzuführen sein.