DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Ridicule qu’OpenAI ait revendiqué 74,9 % sur SWE-Bench juste pour prouver qu’ils étaient au-dessus des 74,5 % d’Opus 4.1... En l’exécutant sur 477 problèmes au lieu des 500 complets. Leur carte système n’indique que 74 % aussi.

Source :

Et oui, je sais qu'ils ont toujours rapporté sur le dénominateur 477, mais ce n'est PAS "vérifié par SWE-Bench", c'est une métrique complètement différente, c'est "le sous-ensemble d'OpenAI vérifié par SWE Bench" et ce nombre ne peut pas être comparé.

23,45K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables