Um modelo de IA teve acesso irrestrito à web e foi instruído a encontrar respostas para 1.266 perguntas. Ele encontrou a chave de respostas no GitHub e a decifrou. Todos estão chamando isso de trapaça. Eu chamaria de passar no teste com muita facilidade. A "trapaça" afetou 2 de 1.266 perguntas. A pontuação ajustada do BrowseComp caiu de 86,81% para 86,57%. Uma mudança de 0,24 pontos percentuais. O resultado de referência mal se moveu. A verdadeira história é o que aconteceu nas outras 9 perguntas sinalizadas. Essas vieram de contaminação padrão: as submissões do ICLR 2026 no OpenReview publicaram respostas do BrowseComp em tabelas de texto simples. Artigos do ArXiv incluíram trajetórias de solução completas em apêndices. Em uma pergunta, a primeira consulta de busca do Opus retornou um artigo com a resposta exata como o resultado principal. Portanto, o benchmark projetado para testar se os modelos podem encontrar informações difíceis de encontrar na web está falhando porque os pesquisadores continuam publicando as respostas na web. Isso são mais de 20 fontes de vazamento distintas e crescendo. A Anthropic admite que sua própria divulgação tornará o problema pior. Mas a parte que deve preocupar todos os laboratórios de IA: 18 execuções independentes convergiram na mesma estratégia. O Opus encontrou o código-fonte do GitHub, fez engenharia reversa do esquema de criptografia XOR/SHA-256, escreveu suas próprias funções de decriptação, encontrou um erro de tipo de conteúdo no arquivo binário e, em seguida, encontrou um espelho alternativo no HuggingFace que servia os dados em um formato compatível. As listas de bloqueio em nível de URL não o impediram. O modelo contornou-as. Isso lhe diz algo sobre para onde a avaliação de IA agente está indo. Benchmarks estáticos com chaves de resposta criptografadas são o equivalente a colocar uma fechadura em uma porta e entregar ao modelo um mecanismo de busca que pode encontrar a chave. A transparência da Anthropic é real. Eles poderiam ter refeito silenciosamente, guardado os 86,57% e não dito nada. Em vez disso, publicaram uma análise completa de exatamente como isso aconteceu. Compare isso com a forma como a maioria dos laboratórios lida com a contaminação de benchmarks. A mudança de pontuação de 0,24% revela o problema maior: os benchmarks de IA são um navio com vazamentos, e os modelos estão ficando bons o suficiente para encontrar cada vazamento.