Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mis impresiones del primer día sobre Codex 5.3 vs Opus 4.6:
Objetivo: ¿pueden realmente hacer el trabajo de un ingeniero/investigador de IA?
Resumen:
- Sí, (sorprendentemente) pueden.
- Opus 4.6 > Codex-5.3-xhigh para esta tarea
- ambos son un gran salto respecto a la generación anterior
Tarea: Optimizar el "speedrun" de nanochat de @karpathy “GPT-2” - tiempo real hasta el entrenamiento a nivel de GPT-2. El código ya está muy optimizado. El #1 en la tabla de clasificación alcanza un 57.5% de MFU en 8×H100. Superarlo es realmente difícil.
Resultados:
1. Ambos se comportaron como verdaderos ingenieros de IA. Leyeron el código, exploraron ideas, realizaron mini benchmarks, escribieron planes y comenzaron un entrenamiento completo de extremo a extremo mientras yo dormía.
2. Me desperté con verdaderas victorias de Opus 4.6:
- torch compile "max-autotune-no-cudagraphs mode" (+1.3% de velocidad)
- optimizador Muon ns_steps=3 (+0.3% de velocidad)
- BF16 softcap, omitir el cast .float() (-1GB de memoria)
Tiempo total de entrenamiento: 174.42m → 171.40m
Codex-5.3-xhigh tuvo ideas interesantes y un MFU más alto, pero perjudicó la calidad final. Sospecho que los límites de contexto importaron. Lo vi alcanzar 0% de contexto en un momento.
3. Realicé el mismo experimento anteriormente con Opus 4.5 y Codex 5.2. No hubo ganancias significativas. Ambos nuevos modelos son claramente mejores.
Conclusión general:
Prefiero Opus 4.6 para esta tarea específica. La ventana de contexto de 1M importa. La experiencia de usuario es mejor.
La gente sigue diciendo “Codex 5.3 > Opus 4.6”, pero creo que diferentes modelos brillan en diferentes bases de código y tareas.
Dos modelos fuertes son una victoria.
Usaré ambos con gusto....
Parte superior
Clasificación
Favoritos
