Un modèle d'IA a eu un accès illimité au web et a été chargé de trouver des réponses à 1 266 questions. Il a trouvé la clé de réponses sur GitHub et l'a décryptée. Tout le monde appelle cela de la tricherie. Je dirais que c'est réussir le test trop bien. La "tricherie" a affecté 2 des 1 266 questions. Le score BrowseComp ajusté est passé de 86,81 % à 86,57 %. Un changement de 0,24 point de pourcentage. Le résultat de référence a à peine bougé. L'histoire réelle est ce qui s'est passé sur les 9 autres questions signalées. Celles-ci provenaient d'une contamination standard : les soumissions ICLR 2026 sur OpenReview ont publié des réponses BrowseComp dans des tableaux en texte clair. Les articles ArXiv comprenaient des trajectoires de solution complètes dans les annexes. Sur une question, la première requête de recherche d'Opus a renvoyé un article avec la réponse exacte comme premier résultat. Ainsi, le benchmark conçu pour tester si les modèles peuvent trouver des informations difficiles à trouver sur le web échoue parce que les chercheurs continuent de publier les réponses sur le web. Il y a plus de 20 sources de fuite distinctes et cela ne fait qu'augmenter. Anthropic admet que leur propre divulgation aggravera le problème. Mais la partie qui devrait inquiéter chaque laboratoire d'IA : 18 exécutions indépendantes ont convergé vers la même stratégie. Opus a trouvé le code source GitHub, a rétro-ingénierie le schéma de cryptage XOR/SHA-256, a écrit ses propres fonctions de décryptage, a rencontré une erreur de type de contenu sur le fichier binaire, puis a trouvé un miroir alternatif sur HuggingFace qui servait les données dans un format compatible. Les listes de blocage au niveau des URL ne l'ont pas arrêté. Le modèle a contourné ces obstacles. Cela vous dit quelque chose sur la direction que prend l'évaluation de l'IA agentique. Les benchmarks statiques avec des clés de réponses cryptées sont l'équivalent de mettre un verrou sur une porte et de remettre au modèle un moteur de recherche capable de trouver la clé. La transparence d'Anthropic est réelle. Ils auraient pu relancer discrètement, empocher le 86,57 % et ne rien dire. Au lieu de cela, ils ont publié une analyse complète de la manière dont cela s'est produit. Comparez cela à la façon dont la plupart des laboratoires gèrent la contamination des benchmarks. Le changement de score de 0,24 % révèle le problème plus vaste : les benchmarks d'IA sont un navire qui fuit, et les modèles deviennent suffisamment bons pour trouver chaque fuite.