OpenAIは最近GPT-5.4をリリースし、今週ずっとClineでテストを行っています。コンピュータ使用率や一般知識の増加に気づき、ベンチマークもそれを裏付けています。 OSWorld(コンピュータ使用評価)は47.3%から75.0%→上昇し、人間のパフォーマンスを上回る72.4%を記録しました!🧵
GPT-5.4もコンテキストウィンドウは100万ですが、評価によると、針の中の針(MRCR v2)は16-32Kトークンで97%、256-512Kで57%、512K-1Mでわずか36%に低下しています。 ですので、定期的に圧縮するのは良いアイデアです!
54