Escucho algunos susurros ahora de los pájaros de que las evaluaciones internas están teniendo gpt5 un poco más que grok 4 Heavy. Sin embargo, las evaluaciones solo cuentan un lado de un modelo, es curioso ver si obtenemos alguna mejora importante en los agentes o en otro tipo.
277.09K