Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Śmieszne, że OpenAI twierdziło, że 74,9% na SWE-Bench tylko po to, aby udowodnić, że byli powyżej 74,5% Opus 4.1...
Uruchamiając go na 477 problemach zamiast pełnych 500.
Na ich karcie systemowej widnieje tylko 74%.

Źródło:
I tak, wiem, że zawsze raportowali na temat mianownika 477, ale to NIE jest „zweryfikowane przez SWE-Bench”, to zupełnie inna metryka, to „podzbiór OpenAI zweryfikowany przez SWE Bench” i tej liczby nie można porównywać.
23,45K
Najlepsze
Ranking
Ulubione