OpenAI acaba de lanzar GPT-5.4 y lo hemos estado probando en Cline toda la semana. Notamos un aumento en el uso de computadoras y en el conocimiento general, y los benchmarks lo respaldan: OSWorld (evaluación de uso de computadoras) pasó del 47.3% → 75.0%, ¡superando el rendimiento humano del 72.4%! 🧵
GPT-5.4 también tiene una ventana de contexto de 1M, pero sus evaluaciones muestran que needle-in-a-haystack (MRCR v2) obtiene un 97% en 16-32K tokens, cae al 57% en 256-512K, y solo al 36% en 512K-1M. ¡Así que es una buena idea compactar regularmente!
139