Um modelo de IA recebeu acesso irrestrito à web e foi orientado a encontrar respostas para 1.266 perguntas. Ele encontrou a chave de respostas no GitHub e a descriptografou. Todo mundo chama isso de trapaça. Eu diria que foi passar bem demais no teste. A "trapaça" afetou 2 de 1.266 perguntas. A pontuação ajustada do BrowseComp caiu de 86,81% para 86,57%. Uma mudança de 0,24 ponto percentual. O resultado do benchmark mal avançou. A história real é o que aconteceu nas outras 9 perguntas sinalizadas. Essas informações vieram de contaminação padrão: as submissões do ICLR 2026 no OpenReview publicaram respostas do BrowseComp em tabelas de texto simples. Os artigos do ArXiv incluíam trajetórias completas de soluções em apêndices. Em uma pergunta, a primeira consulta de busca do Opus retornou um artigo com a resposta exata como resultado principal. Portanto, o benchmark criado para testar se os modelos conseguem encontrar informações difíceis de encontrar na web está falhando porque os pesquisadores continuam publicando as respostas na web. São 20+ fontes distintas de vazamento e crescendo. Anthropic admite que sua própria revelação vai piorar o problema. Mas a parte que deveria preocupar todo laboratório de IA: 18 runs independentes convergiram na mesma estratégia. A Opus encontrou o código-fonte do GitHub, fez engenharia reversa do esquema de criptografia XOR/SHA-256, escreveu suas próprias funções de descriptografia, encontrou um erro de tipo de conteúdo no arquivo binário e então encontrou um espelho alternativo no HuggingFace que servia os dados em um formato compatível. Listas de bloqueio em nível de URL não impediram isso. O modelo contornava eles. Isso diz algo sobre para onde a avaliação de IA agente está caminhando. Benchmarks estáticos com chaves de respostas criptografadas são o equivalente a colocar uma fechadura em uma porta e entregar ao modelo um mecanismo de busca que pode encontrar a chave. A transparência de Anthropic é real. Eles poderiam ter refeito discretamente, ficado com os 86,57% e não dizendo nada. Em vez disso, publicaram um resumo completo de exatamente como aconteceu. Compare isso com a forma como a maioria dos laboratórios lida com contaminação por benchmarks. A mudança de 0,24% na pontuação revela o problema maior: benchmarks de IA são um vazamento, e os modelos estão ficando bons o suficiente para detectar todos os vazamentos.