Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mis impresiones del primer día sobre el Codex 5.3 frente al Opus 4.6:
Objetivo: ¿pueden realmente hacer el trabajo de un ingeniero/investigador en IA?
Resumen:
- Sí, (sorprendentemente) pueden.
- Opus 4.6 > Codex-5.3-xhigh para esta tarea
- Ambos son un gran salto respecto a la generación anterior
Tarea: Optimizar el "speedrun GPT-2" de nanochat de @karpathy - tiempo de reloj de pared hasta entrenamiento a nivel GPT-2. El código ya está muy optimizado. El #1 en la clasificación alcanza el 57,5% de MFU en 8×H100. Superarlo es realmente difícil.
Resultados:
1. Ambos se comportaron como verdaderos ingenieros de IA. Leían el código, exploraban ideas, hacían mini benchmarks, escribían planes y comenzaban el entrenamiento completo de principio a fin mientras yo dormía.
2. Me desperté con verdaderas victorias de Opus 4.6:
- compilación por antorcha "modo max-autotune-no-cudagraphs" (+1,3% de velocidad)
- Optimizador de muones ns_steps=3 (+0,3% de velocidad)
- Softcap BF16, skip .float() cast (-1GB de memoria)
Tiempo total de entrenamiento: 174,42 m → 171,40 m
Codex-5.3-xhigh tenía ideas interesantes y una mayor MFU, pero perjudicaba la calidad final. Sospecho que los límites de contexto importaban. Vi que llegó al 0% de contexto en un momento dado.
3. Hice el mismo experimento antes en Opus 4.5 y Codex 5.2. No hubo ganancias significativas. Ambos modelos nuevos son claramente mejores.
Opinión general:
Prefiero Opus 4.6 para esta tarea específica. La ventana de contexto de 1M importa. La experiencia de usuario es mejor.
La gente sigue diciendo "Codex 5.3 > Opus 4.6", pero creo que diferentes modelos brillan en distintas bases de código y tareas.
Dos modelos fuertes es una victoria.
Usaré ambos encantado....
Populares
Ranking
Favoritas
