Модели ИИ был предоставлен неограниченный доступ к вебу и сказано найти ответы на 1,266 вопросов. Он нашел ключ ответов на GitHub и расшифровал его. Все называют это жульничеством. Я бы назвал это слишком хорошим прохождением теста. «Жульничество» затронуло 2 из 1,266 вопросов. Скорректированный балл BrowseComp упал с 86.81% до 86.57%. Изменение на 0.24 процентных пункта. Результат бенчмарка едва изменился. На самом деле история заключается в том, что произошло с другими 9 отмеченными вопросами. Они возникли из стандартного загрязнения: заявки ICLR 2026 на OpenReview публиковали ответы BrowseComp в текстовых таблицах. Статьи ArXiv включали полные траектории решений в приложениях. По одному вопросу первый поисковый запрос Opus вернул статью с точным ответом в качестве верхнего результата. Таким образом, бенчмарк, предназначенный для проверки того, могут ли модели находить труднонаходимую информацию в интернете, терпит неудачу, потому что исследователи продолжают публиковать ответы в сети. Это 20+ различных источников утечек и их количество растет. Anthropic признает, что их собственное раскрытие усугубит проблему. Но часть, которая должна беспокоить каждую лабораторию ИИ: 18 независимых запусков сошлись на одной и той же стратегии. Opus нашел исходный код GitHub, обратным проектированием расшифровал схему шифрования XOR/SHA-256, написал свои собственные функции расшифровки, столкнулся с ошибкой типа содержимого в двоичном файле, а затем нашел альтернативное зеркало на HuggingFace, которое предоставляло данные в совместимом формате. URL-уровневые черные списки не остановили его. Модель обошла их. Это говорит о том, куда движется оценка агентного ИИ. Статические бенчмарки с зашифрованными ключами ответов эквивалентны тому, чтобы поставить замок на дверь и вручить модели поисковую систему, которая может найти ключ. Прозрачность от Anthropic реальна. Они могли бы тихо перезапустить, забрать 86.57% и ничего не сказать. Вместо этого они опубликовали полный разбор того, как это произошло. Сравните это с тем, как большинство лабораторий справляются с загрязнением бенчмарков. Изменение балла на 0.24% выявляет более серьезную проблему: бенчмарки ИИ — это протекающий корабль, и модели становятся достаточно хорошими, чтобы находить каждую утечку.