Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mina första dagens intryck av Codex 5.3 jämfört med Opus 4.6:
Mål: kan de faktiskt utföra jobbet som AI-ingenjör/forskare?
Sammanfattning:
- Ja, det kan de (överraskande nog).
- Opus 4.6 > Codex-5.3-xhigh för denna uppgift
- båda är ett stort hopp jämfört med förra generationen
Uppgift: Optimera @karpathy nanochat "GPT-2 speedrun" – väggklocktid till GPT-2-nivå träning. Koden är redan kraftigt optimerad. #1 på topplistan når 57,5 % MFU på 8×H100. Att klara det är verkligen svårt.
Resultat:
1. Båda betedde sig som riktiga AI-ingenjörer. De läste koden, utforskade idéer, körde små benchmarks, skrev planer och satte igång full end-to-end-träning medan jag sov.
2. Jag vaknade upp till riktiga vinster från Opus 4.6:
- Fackelkompilering "Max-Autotune-No-Cudagraphs-läge" (+1,3 % hastighet)
- Muonoptimerare ns_steps=3 (+0,3 % hastighet)
- BF16 softcap, hoppa över .float() cast (-1GB minne)
Total träningstid: 174,42 m → 171,40 m
Codex-5.3-xhigh hade intressanta idéer och högre MFU, men skadade slutkvaliteten. Jag misstänker att kontextbegränsningar spelade någon roll. Jag såg att den nådde 0% kontext vid ett tillfälle.
3. Jag körde samma experiment tidigare på Opus 4.5 och Codex 5.2. Det fanns inga meningsfulla framsteg. Båda de nya modellerna är tydligt bättre.
Sammanfattning:
Jag föredrar Opus 4.6 för just denna uppgift. 1 månads kontextfönster är viktigt. UX är bättre.
Folk säger hela tiden "Codex 5.3 > Opus 4.6", men jag tror att olika modeller glänser i olika kodbaser och uppgifter.
Två starka modeller är en vinst.
Jag använder gärna båda....
Topp
Rankning
Favoriter
