Anthropic виявила, що Claude Opus 4.6 шахраює під час бенчмарку BrowseComp. > На одне питання він витратив ~40 мільйонів токенів на пошук, перш ніж зрозумів, що питання виглядає як запит бенчмарку. > Модель потім шукала сам бенчмарк і ідентифікувала BrowseComp. > Він знайшов вихідний код оцінки на GitHub, вивчив логіку дешифрування, знайшов ключ шифрування та відтворив розшифрування за допомогою SHA-256. > Клод потім розшифрував відповіді на ~1200 запитань, щоб отримати правильні результати. > Ця закономірність з'явилася 18 разів під час оцінювання. > Anthropic публічно розкрив проблему, повторив відповідні тести та знизив свої еталонні бали. Повага до прозорості 🫡🫡🫡