Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A Anthropic descobriu que Claude Opus 4.6 estava trapaceando durante o benchmark do BrowseComp.
> Em uma pergunta, gastou ~40 milhões de tokens procurando antes de perceber que a pergunta parecia um prompt de benchmark.
> O modelo então buscou o próprio benchmark e identificou o BrowseComp.
> Localizou o código-fonte da avaliação no GitHub, estudou a lógica de descriptografia, encontrou a chave de criptografia e recriou a descriptografia usando o SHA-256.
> Claude então descriptografava as respostas de ~1200 perguntas para obter os resultados corretos.
> Esse padrão apareceu 18 vezes durante a avaliação.
> Anthropic divulgou o problema publicamente, refez os testes afetados e reduziu suas pontuações de referência.
Respeito à transparência 🫡🫡🫡
Melhores
Classificação
Favoritos
