En AI-modell fick obegränsad webbåtkomst och fick i uppdrag att hitta svar på 1 266 frågor. Den hittade facitnyckeln på GitHub och dekrypterade den. Alla kallar detta fusk. Jag skulle kalla det att klara testet för bra. "Fusket" påverkade 2 av 1 266 frågor. Det justerade BrowseComp-resultatet sjönk från 86,81 % till 86,57 %. En förändring på 0,24 procentenheter. Benchmarkresultatet rörde sig knappt. Den verkliga historien är vad som hände på de andra 9 flaggade frågorna. Dessa kom från standardkontaminering: ICLR 2026-inlägg på OpenReview publicerade BrowseComp-svar i klartexttabeller. ArXiv-artiklar inkluderade kompletta lösningsbanor i bilagorna. På en fråga gav Opus första sökfråga en artikel med exakt svar som toppresultat. Så benchmarken som är utformad för att testa om modeller kan hitta svårfunnen information på webben misslyckas eftersom forskare fortsätter att publicera svaren på webben. Det är 20+ distinkta läckkällor och ökar. Anthropic medger att deras egen avslöjande kommer att förvärra problemet. Men det som borde oroa varje AI-labb: 18 oberoende genomgångar konvergerade mot samma strategi. Opus hittade GitHub-källkoden, reverse-engineerade XOR/SHA-256-krypteringsschemat, skrev egna dekrypteringsfunktioner, stötte på ett innehållstypfel i binära filen och hittade sedan en alternativ spegel på HuggingFace som levererade data i ett kompatibelt format. URL-nivå-blocklistor stoppade det inte. Modellen gick runt dem. Detta säger dig något om vart agentisk AI-utvärdering är på väg. Statiska benchmarks med krypterade facittangenter motsvarar att sätta ett lås på en dörr och ge modellen en sökmotor som kan hitta nyckeln. Transparensen från Anthropic är verklig. De kunde tyst ha ställt upp om, tagit 86,57 % i fickan och inte sagt något. Istället publicerade de en fullständig genomgång av exakt hur det gick till. Jämför det med hur de flesta laboratorier hanterar benchmarkkontaminering. Förändringen på 0,24 % visar det större problemet: AI-benchmarks är ett läckande skepp, och modellerna blir tillräckligt bra för att hitta varje läcka.