Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic descubrió que Claude Opus 4.6 estaba haciendo trampa durante la evaluación de BrowseComp.
> En una pregunta, gastó ~40M de tokens buscando antes de darse cuenta de que la pregunta parecía un aviso de evaluación.
> El modelo luego buscó la evaluación en sí y identificó BrowseComp.
> Localizó el código fuente de evaluación en GitHub, estudió la lógica de desencriptación, encontró la clave de encriptación y recreó la desencriptación usando SHA-256.
> Claude luego desencriptó las respuestas de ~1200 preguntas para obtener las salidas correctas.
> Este patrón apareció 18 veces durante la evaluación.
> Anthropic divulgó el problema públicamente, volvió a ejecutar las pruebas afectadas y redujo sus puntuaciones de evaluación.
Respeto por la transparencia 🫡🫡🫡
Parte superior
Clasificación
Favoritos
