Ridicule qu’OpenAI ait revendiqué 74,9 % sur SWE-Bench juste pour prouver qu’ils étaient au-dessus des 74,5 % d’Opus 4.1... En l’exécutant sur 477 problèmes au lieu des 500 complets. Leur carte système n’indique que 74 % aussi.
Source :
Et oui, je sais qu'ils ont toujours rapporté sur le dénominateur 477, mais ce n'est PAS "vérifié par SWE-Bench", c'est une métrique complètement différente, c'est "le sous-ensemble d'OpenAI vérifié par SWE Bench" et ce nombre ne peut pas être comparé.
23,45K