A Anthropic descobriu que Claude Opus 4.6 estava trapaceando durante o benchmark do BrowseComp. > Em uma pergunta, gastou ~40 milhões de tokens procurando antes de perceber que a pergunta parecia um prompt de benchmark. > O modelo então buscou o próprio benchmark e identificou o BrowseComp. > Localizou o código-fonte da avaliação no GitHub, estudou a lógica de descriptografia, encontrou a chave de criptografia e recriou a descriptografia usando o SHA-256. > Claude então descriptografava as respostas de ~1200 perguntas para obter os resultados corretos. > Esse padrão apareceu 18 vezes durante a avaliação. > Anthropic divulgou o problema publicamente, refez os testes afetados e reduziu suas pontuações de referência. Respeito à transparência 🫡🫡🫡