OpenAI har nettopp droppet GPT-5.4, og vi har testet det i Cline hele uken. Vi la merke til en økning i databruk og generell kunnskap, og benchmarkene støtter det: OSWorld (datavurdering) gikk fra 47,3 % → 75,0 %, og overgikk menneskelig ytelse på 72,4 %! 🧵
GPT-5.4 har også et kontekstvindue på 1 million, men evalueringene deres viser at needle-in-a-haystack (MRCR v2) scorer 97 % på 16-32 000 tokens, faller til 57 % på 256-512 000, og bare 36 % på 512 000-1 million. Så det er lurt å komprimere jevnlig!
117