A OpenAI acabou de lançar o GPT-5.4 e estamos testando no Cline a semana toda. Notamos um aumento no uso de computadores e no conhecimento geral, e os benchmarks comprovam isso: O OSWorld (avaliação de uso de computador) passou de 47,3% → 75,0%, superando o desempenho humano com 72,4%! 🧵
O GPT-5.4 também tem uma janela de contexto de 1M, mas suas avaliações mostram que o needle-in-a-haystack (MRCR v2) obtém 97% em 16-32K tokens, cai para 57% em 256-512K e apenas 36% em 512K-1M. Então é uma boa ideia compactar regularmente!
47