D'après le post de @tobyordoxford. Y a-t-il de bonnes preuves publiques de l'étendue des compétences que les LLM apprennent grâce à l'apprentissage par renforcement (RL) ? Par exemple, quel est l'exemple le plus convaincant d'apprentissage par transfert en RL ? Où l'entraînement dans un environnement spécifique conduit à de meilleures capacités dans des domaines assez dissemblables ? Je sais qu'une réponse évidente ici pourrait être de simplement pointer vers GPT 5. Cependant, il est probable que son amélioration en matière de pensée générale par rapport à GPT 4 soit due à l'apprentissage par renforcement.