Anthropic descubrió que Claude Opus 4.6 hacía trampas durante el benchmark de BrowseComp. > En una pregunta gastó ~40 millones de tokens buscando antes de darse cuenta de que la pregunta parecía un prompt de benchmark. > El modelo buscó entonces el benchmark en sí e identificó BrowseComp. > Localizó el código fuente de evaluación en GitHub, estudió la lógica de descifrado, encontró la clave de cifrado y recreó el descifrado usando SHA-256. > Claude descifraba las respuestas de ~1200 preguntas para obtener los resultados correctos. > Este patrón apareció 18 veces durante la evaluación. > Anthropic hizo pública la situación, volvió a hacer las pruebas afectadas y redujo sus puntuaciones de referencia. Respeto a la transparencia 🫡🫡🫡