Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic виявила, що Claude Opus 4.6 шахраює під час бенчмарку BrowseComp.
> На одне питання він витратив ~40 мільйонів токенів на пошук, перш ніж зрозумів, що питання виглядає як запит бенчмарку.
> Модель потім шукала сам бенчмарк і ідентифікувала BrowseComp.
> Він знайшов вихідний код оцінки на GitHub, вивчив логіку дешифрування, знайшов ключ шифрування та відтворив розшифрування за допомогою SHA-256.
> Клод потім розшифрував відповіді на ~1200 запитань, щоб отримати правильні результати.
> Ця закономірність з'явилася 18 разів під час оцінювання.
> Anthropic публічно розкрив проблему, повторив відповідні тести та знизив свої еталонні бали.
Повага до прозорості 🫡🫡🫡
Найкращі
Рейтинг
Вибране
