DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Lächerlich, dass OpenAI 74,9 % auf SWE-Bench beanspruchte, nur um zu beweisen, dass sie über den 74,5 % von Opus 4.1 lagen... Indem man es auf 477 Probleme statt auf die vollen 500 ausführt. Auf ihrer Systemkarte stehen auch nur 74 %.

Quelle:

Und ja, ich weiß, dass sie immer über den 477 Nenner berichtet haben, aber das ist NICHT „SWE-Bench verifiziert“, das ist eine ganz andere Kennzahl, es ist „OpenAIs Teilmenge von SWE Bench Verified“ und diese Zahl kann nicht verglichen werden.

23,44K

Top

Ranking

Favoriten

Onchain-Trends

Im Trend auf X

Aktuelle Top-Finanzierungen

Am bemerkenswertesten