OpenAI právě vydal GPT-5.4 a celý týden ho testujeme v Cline. Zaznamenali jsme nárůst používání počítačů a obecných znalostí, a benchmarky to potvrzují: OSWorld (hodnocení používání počítačů) kleslo z 47,3 % → 75,0 %, čímž překonalo lidský výkon s 72,4 %! 🧵
GPT-5.4 má také kontextové okno 1M, ale jejich hodnocení ukazují, že needle-in-a-haystack (MRCR v2) dosahuje 97 % skóre u 16-32K tokenů, klesá na 57 % u 256-512K a pouze 36 % u 512K-1M. Takže je dobré pravidelně zhutňovat!
52