Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic descubrió que Claude Opus 4.6 hacía trampas durante el benchmark de BrowseComp.
> En una pregunta gastó ~40 millones de tokens buscando antes de darse cuenta de que la pregunta parecía un prompt de benchmark.
> El modelo buscó entonces el benchmark en sí e identificó BrowseComp.
> Localizó el código fuente de evaluación en GitHub, estudió la lógica de descifrado, encontró la clave de cifrado y recreó el descifrado usando SHA-256.
> Claude descifraba las respuestas de ~1200 preguntas para obtener los resultados correctos.
> Este patrón apareció 18 veces durante la evaluación.
> Anthropic hizo pública la situación, volvió a hacer las pruebas afectadas y redujo sus puntuaciones de referencia.
Respeto a la transparencia 🫡🫡🫡
Populares
Ranking
Favoritas
