Mis impresiones del primer día sobre Codex 5.3 vs Opus 4.6: Objetivo: ¿pueden realmente hacer el trabajo de un ingeniero/investigador de IA? Resumen: - Sí, (sorprendentemente) pueden. - Opus 4.6 > Codex-5.3-xhigh para esta tarea - ambos son un gran salto respecto a la generación anterior Tarea: Optimizar el "speedrun" de nanochat de @karpathy “GPT-2” - tiempo real hasta el entrenamiento a nivel de GPT-2. El código ya está muy optimizado. El #1 en la tabla de clasificación alcanza un 57.5% de MFU en 8×H100. Superarlo es realmente difícil. Resultados: 1. Ambos se comportaron como verdaderos ingenieros de IA. Leyeron el código, exploraron ideas, realizaron mini benchmarks, escribieron planes y comenzaron un entrenamiento completo de extremo a extremo mientras yo dormía. 2. Me desperté con verdaderas victorias de Opus 4.6: - torch compile "max-autotune-no-cudagraphs mode" (+1.3% de velocidad) - optimizador Muon ns_steps=3 (+0.3% de velocidad) - BF16 softcap, omitir el cast .float() (-1GB de memoria) Tiempo total de entrenamiento: 174.42m → 171.40m Codex-5.3-xhigh tuvo ideas interesantes y un MFU más alto, pero perjudicó la calidad final. Sospecho que los límites de contexto importaron. Lo vi alcanzar 0% de contexto en un momento. 3. Realicé el mismo experimento anteriormente con Opus 4.5 y Codex 5.2. No hubo ganancias significativas. Ambos nuevos modelos son claramente mejores. Conclusión general: Prefiero Opus 4.6 para esta tarea específica. La ventana de contexto de 1M importa. La experiencia de usuario es mejor. La gente sigue diciendo “Codex 5.3 > Opus 4.6”, pero creo que diferentes modelos brillan en diferentes bases de código y tareas. Dos modelos fuertes son una victoria. Usaré ambos con gusto....