Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mes impressions du premier jour sur Codex 5.3 vs Opus 4.6 :
Objectif : peuvent-ils réellement faire le travail d'un ingénieur/rechercheur en IA ?
Résumé :
- Oui, ils (surprenamment) le peuvent.
- Opus 4.6 > Codex-5.3-xhigh pour cette tâche
- les deux représentent un grand bond par rapport à la génération précédente
Tâche : Optimiser le "speedrun GPT-2" de @karpathy - temps réel pour un entraînement au niveau de GPT-2. Le code est déjà fortement optimisé. #1 sur le tableau des leaders atteint 57,5 % MFU sur 8×H100. Le battre est vraiment difficile.
Résultats :
1. Les deux se sont comportés comme de véritables ingénieurs en IA. Ils ont lu le code, exploré des idées, exécuté des mini-benchmarks, écrit des plans et lancé un entraînement complet de bout en bout pendant que je dormais.
2. Je me suis réveillé avec de réels succès d'Opus 4.6 :
- compilation torch "max-autotune-no-cudagraphs mode" (+1,3 % de vitesse)
- optimiseur Muon ns_steps=3 (+0,3 % de vitesse)
- softcap BF16, saut de la conversion .float() (-1 Go de mémoire)
Temps total d'entraînement : 174,42 m → 171,40 m
Codex-5.3-xhigh avait des idées intéressantes et un MFU plus élevé, mais a nui à la qualité finale. Je soupçonne que les limites de contexte ont joué un rôle. Je l'ai vu atteindre 0 % de contexte à un moment donné.
3. J'ai réalisé la même expérience plus tôt sur Opus 4.5 et Codex 5.2. Il n'y avait pas de gains significatifs. Les deux nouveaux modèles sont clairement meilleurs.
Conclusion générale :
Je préfère Opus 4.6 pour cette tâche spécifique. La fenêtre de contexte de 1M est importante. L'expérience utilisateur est meilleure.
Les gens continuent de dire "Codex 5.3 > Opus 4.6", mais je crois que différents modèles brillent dans différentes bases de code et tâches.
Deux modèles puissants, c'est une victoire.
Je vais utiliser les deux avec plaisir....
Meilleurs
Classement
Favoris
