Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Śmieszne, że OpenAI twierdziło, że 74,9% na SWE-Bench tylko po to, aby udowodnić, że byli powyżej 74,5% Opus 4.1... Uruchamiając go na 477 problemach zamiast pełnych 500. Na ich karcie systemowej widnieje tylko 74%.

Źródło:

I tak, wiem, że zawsze raportowali na temat mianownika 477, ale to NIE jest „zweryfikowane przez SWE-Bench”, to zupełnie inna metryka, to „podzbiór OpenAI zweryfikowany przez SWE Bench” i tej liczby nie można porównywać.

23,45K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi