Mis impresiones del primer día sobre el Codex 5.3 frente al Opus 4.6: Objetivo: ¿pueden realmente hacer el trabajo de un ingeniero/investigador en IA? Resumen: - Sí, (sorprendentemente) pueden. - Opus 4.6 > Codex-5.3-xhigh para esta tarea - Ambos son un gran salto respecto a la generación anterior Tarea: Optimizar el "speedrun GPT-2" de nanochat de @karpathy - tiempo de reloj de pared hasta entrenamiento a nivel GPT-2. El código ya está muy optimizado. El #1 en la clasificación alcanza el 57,5% de MFU en 8×H100. Superarlo es realmente difícil. Resultados: 1. Ambos se comportaron como verdaderos ingenieros de IA. Leían el código, exploraban ideas, hacían mini benchmarks, escribían planes y comenzaban el entrenamiento completo de principio a fin mientras yo dormía. 2. Me desperté con verdaderas victorias de Opus 4.6: - compilación por antorcha "modo max-autotune-no-cudagraphs" (+1,3% de velocidad) - Optimizador de muones ns_steps=3 (+0,3% de velocidad) - Softcap BF16, skip .float() cast (-1GB de memoria) Tiempo total de entrenamiento: 174,42 m → 171,40 m Codex-5.3-xhigh tenía ideas interesantes y una mayor MFU, pero perjudicaba la calidad final. Sospecho que los límites de contexto importaban. Vi que llegó al 0% de contexto en un momento dado. 3. Hice el mismo experimento antes en Opus 4.5 y Codex 5.2. No hubo ganancias significativas. Ambos modelos nuevos son claramente mejores. Opinión general: Prefiero Opus 4.6 para esta tarea específica. La ventana de contexto de 1M importa. La experiencia de usuario es mejor. La gente sigue diciendo "Codex 5.3 > Opus 4.6", pero creo que diferentes modelos brillan en distintas bases de código y tareas. Dos modelos fuertes es una victoria. Usaré ambos encantado....