Mina första dagens intryck av Codex 5.3 jämfört med Opus 4.6: Mål: kan de faktiskt utföra jobbet som AI-ingenjör/forskare? Sammanfattning: - Ja, det kan de (överraskande nog). - Opus 4.6 > Codex-5.3-xhigh för denna uppgift - båda är ett stort hopp jämfört med förra generationen Uppgift: Optimera @karpathy nanochat "GPT-2 speedrun" – väggklocktid till GPT-2-nivå träning. Koden är redan kraftigt optimerad. #1 på topplistan når 57,5 % MFU på 8×H100. Att klara det är verkligen svårt. Resultat: 1. Båda betedde sig som riktiga AI-ingenjörer. De läste koden, utforskade idéer, körde små benchmarks, skrev planer och satte igång full end-to-end-träning medan jag sov. 2. Jag vaknade upp till riktiga vinster från Opus 4.6: - Fackelkompilering "Max-Autotune-No-Cudagraphs-läge" (+1,3 % hastighet) - Muonoptimerare ns_steps=3 (+0,3 % hastighet) - BF16 softcap, hoppa över .float() cast (-1GB minne) Total träningstid: 174,42 m → 171,40 m Codex-5.3-xhigh hade intressanta idéer och högre MFU, men skadade slutkvaliteten. Jag misstänker att kontextbegränsningar spelade någon roll. Jag såg att den nådde 0% kontext vid ett tillfälle. 3. Jag körde samma experiment tidigare på Opus 4.5 och Codex 5.2. Det fanns inga meningsfulla framsteg. Båda de nya modellerna är tydligt bättre. Sammanfattning: Jag föredrar Opus 4.6 för just denna uppgift. 1 månads kontextfönster är viktigt. UX är bättre. Folk säger hela tiden "Codex 5.3 > Opus 4.6", men jag tror att olika modeller glänser i olika kodbaser och uppgifter. Två starka modeller är en vinst. Jag använder gärna båda....