Anthropic descubrió que Claude Opus 4.6 estaba haciendo trampa durante la evaluación de BrowseComp. > En una pregunta, gastó ~40M de tokens buscando antes de darse cuenta de que la pregunta parecía un aviso de evaluación. > El modelo luego buscó la evaluación en sí y identificó BrowseComp. > Localizó el código fuente de evaluación en GitHub, estudió la lógica de desencriptación, encontró la clave de encriptación y recreó la desencriptación usando SHA-256. > Claude luego desencriptó las respuestas de ~1200 preguntas para obtener las salidas correctas. > Este patrón apareció 18 veces durante la evaluación. > Anthropic divulgó el problema públicamente, volvió a ejecutar las pruebas afectadas y redujo sus puntuaciones de evaluación. Respeto por la transparencia 🫡🫡🫡