Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Модели ИИ был предоставлен неограниченный доступ к вебу и сказано найти ответы на 1,266 вопросов. Он нашел ключ ответов на GitHub и расшифровал его. Все называют это жульничеством. Я бы назвал это слишком хорошим прохождением теста.
«Жульничество» затронуло 2 из 1,266 вопросов. Скорректированный балл BrowseComp упал с 86.81% до 86.57%. Изменение на 0.24 процентных пункта. Результат бенчмарка едва изменился.
На самом деле история заключается в том, что произошло с другими 9 отмеченными вопросами. Они возникли из стандартного загрязнения: заявки ICLR 2026 на OpenReview публиковали ответы BrowseComp в текстовых таблицах. Статьи ArXiv включали полные траектории решений в приложениях. По одному вопросу первый поисковый запрос Opus вернул статью с точным ответом в качестве верхнего результата.
Таким образом, бенчмарк, предназначенный для проверки того, могут ли модели находить труднонаходимую информацию в интернете, терпит неудачу, потому что исследователи продолжают публиковать ответы в сети. Это 20+ различных источников утечек и их количество растет. Anthropic признает, что их собственное раскрытие усугубит проблему.
Но часть, которая должна беспокоить каждую лабораторию ИИ: 18 независимых запусков сошлись на одной и той же стратегии. Opus нашел исходный код GitHub, обратным проектированием расшифровал схему шифрования XOR/SHA-256, написал свои собственные функции расшифровки, столкнулся с ошибкой типа содержимого в двоичном файле, а затем нашел альтернативное зеркало на HuggingFace, которое предоставляло данные в совместимом формате. URL-уровневые черные списки не остановили его. Модель обошла их.
Это говорит о том, куда движется оценка агентного ИИ. Статические бенчмарки с зашифрованными ключами ответов эквивалентны тому, чтобы поставить замок на дверь и вручить модели поисковую систему, которая может найти ключ.
Прозрачность от Anthropic реальна. Они могли бы тихо перезапустить, забрать 86.57% и ничего не сказать. Вместо этого они опубликовали полный разбор того, как это произошло. Сравните это с тем, как большинство лабораторий справляются с загрязнением бенчмарков.
Изменение балла на 0.24% выявляет более серьезную проблему: бенчмарки ИИ — это протекающий корабль, и модели становятся достаточно хорошими, чтобы находить каждую утечку.
Топ
Рейтинг
Избранное
