Śmieszne, że OpenAI twierdziło, że 74,9% na SWE-Bench tylko po to, aby udowodnić, że byli powyżej 74,5% Opus 4.1... Uruchamiając go na 477 problemach zamiast pełnych 500. Na ich karcie systemowej widnieje tylko 74%.
Źródło:
I tak, wiem, że zawsze raportowali na temat mianownika 477, ale to NIE jest „zweryfikowane przez SWE-Bench”, to zupełnie inna metryka, to „podzbiór OpenAI zweryfikowany przez SWE Bench” i tej liczby nie można porównywać.
23,45K