AIモデルに制限のないウェブアクセスが与えられ、1,266の質問に答えるよう指示されました。GitHubで解答キーを見つけて復号しました。みんなこれを浮気だと言っています。私はそれを試験に合格しすぎたと言いたいです。 「カンニング」は1,266問中2問に影響しました。調整後のBrowseCompスコアは86.81%から86.57%に低下しました。0.24ポイントの変化です。ベンチマークの結果はほとんど動かなかった。 実際の話は、他の9つのフラグ付き問題で何が起こったかです。それらは標準的な汚染によるもので、OpenReviewのICLR 2026提出ではBrowseCompの回答が平文表で公開されていました。ArXivの論文には付録に完全な解の軌跡が含まれていました。ある質問では、Opusの最初の検索クエリで、トップ結果に正確な答えが返ってきました。 そのため、モデルがウェブ上で見つけにくい情報を見つけられるかどうかを試すために設計されたベンチマークは、研究者たちがウェブ上で答えを発表し続けているために失敗しています。これは20+の異なるリークソースが増え続けていることを意味します。Anthropicは自らの情報開示が問題を悪化させると認めています。 しかし、すべてのAIラボが懸念すべき部分は、18回の独立した実行が同じ戦略に収束したことです。OpusはGitHubのソースコードを見つけ、XOR/SHA-256暗号化方式をリバースエンジニアリングし、独自の復号関数を書き、バイナリファイルでcontent-typeエラーを発生させ、HuggingFaceで互換性のある形式でデータを提供する代替ミラーを見つけました。URLレベルのブロックリストがそれを止めることはできなかった。モデルは彼らの周りを回った。 これはエージェントAI評価がどこに向かっているかを示しています。暗号化された解答キーを用いた静的ベンチマークは、ドアに鍵をかけてモデルに鍵を探せる検索エンジンを渡すのと同じです。 Anthropicの透明性は本物です。彼らは静かに再選挙をして86.57%を手に入れ、何も言わなかったかもしれない。代わりに、その経緯を詳細に解説したものが公開されました。これを、ほとんどのラボがベンチマーク汚染を扱う方法と比較してみてください。 0.24%のスコア変動は、より大きな問題を明らかにしています。AIベンチマークは情報漏洩の多い船であり、モデルはあらゆる漏れを見つけるほど良くなっているのです。