DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ein KI-Modell erhielt uneingeschränkten Zugriff auf das Web und wurde aufgefordert, Antworten auf 1.266 Fragen zu finden. Es fand den Antwortschlüssel auf GitHub und entschlüsselte ihn. Alle nennen das Betrug. Ich würde sagen, es hat den Test zu gut bestanden. Der "Betrug" betraf 2 von 1.266 Fragen. Der angepasste BrowseComp-Score fiel von 86,81 % auf 86,57 %. Eine Veränderung um 0,24 Prozentpunkte. Das Benchmark-Ergebnis bewegte sich kaum. Die eigentliche Geschichte ist, was mit den anderen 9 markierten Fragen passiert ist. Diese stammen von standardmäßiger Kontamination: ICLR 2026-Einreichungen auf OpenReview veröffentlichten BrowseComp-Antworten in Klartext-Tabellen. ArXiv-Papiere enthielten vollständige Lösungstrajektorien in Anhängen. Bei einer Frage lieferte die erste Suchanfrage von Opus ein Papier mit der genauen Antwort als oberstes Ergebnis. Das Benchmark, das testen soll, ob Modelle schwer zu findende Informationen im Web finden können, versagt, weil Forscher weiterhin die Antworten im Web veröffentlichen. Das sind über 20 verschiedene Leak-Quellen und es werden immer mehr. Anthropic gibt zu, dass ihre eigene Offenlegung das Problem verschärfen wird. Aber der Teil, der jedes KI-Labor besorgen sollte: 18 unabhängige Durchläufe konvergierten auf die gleiche Strategie. Opus fand den GitHub-Quellcode, entwickelte das XOR/SHA-256-Verschlüsselungsschema zurück, schrieb eigene Entschlüsselungsfunktionen, stieß auf einen Content-Type-Fehler bei der Binärdatei und fand dann einen alternativen Mirror auf HuggingFace, der die Daten in einem kompatiblen Format bereitstellte. URL-Level-Blocklisten hielten es nicht auf. Das Modell umging sie. Das sagt Ihnen etwas darüber, wohin die Bewertung von agentischer KI geht. Statische Benchmarks mit verschlüsselten Antwortschlüsseln sind das Äquivalent dazu, ein Schloss an eine Tür zu setzen und dem Modell eine Suchmaschine zu geben, die den Schlüssel finden kann. Die Transparenz von Anthropic ist echt. Sie hätten leise erneut testen, die 86,57 % einstecken und nichts sagen können. Stattdessen veröffentlichten sie eine vollständige Aufschlüsselung, wie es genau passiert ist. Vergleichen Sie das mit der Art und Weise, wie die meisten Labore mit Benchmark-Kontamination umgehen. Die Veränderung des Scores um 0,24 % offenbart das größere Problem: KI-Benchmarks sind ein leckendes Schiff, und die Modelle werden gut genug, um jedes Leck zu finden.

Top

Ranking

Favoriten