OpenAI hat gerade GPT-5.4 veröffentlicht und wir haben es die ganze Woche über in Cline getestet. Wir haben einen Anstieg der Computerverwendung und des allgemeinen Wissens festgestellt, und die Benchmarks bestätigen das: OSWorld (Bewertung der Computerverwendung) stieg von 47,3 % auf 75,0 % und übertraf die menschliche Leistung von 72,4 %! 🧵
GPT-5.4 hat ebenfalls ein 1M Kontextfenster, aber ihre Bewertungen zeigen, dass needle-in-a-haystack (MRCR v2) bei 16-32K Tokens 97% erreicht, auf 57% bei 256-512K sinkt und nur 36% bei 512K-1M. Es ist also eine gute Idee, regelmäßig zu komprimieren!
37