Impresiile mele din prima zi despre Codex 5.3 vs Opus 4.6: Obiectiv: pot ei să facă efectiv treaba unui inginer/cercetător AI? Pe scurt: - Da, pot (surprinzător). - Opus 4.6 > Codex-5.3-xhigh pentru această sarcină - Ambele sunt un salt mare față de generația trecută Sarcină: Optimizarea "GPT-2 speedrun" de la nanochat a lui @karpathy - timp de la ceas pe perete până la antrenament la nivel GPT-2. Codul este deja puternic optimizat. #1 în clasament atinge 57,5% MFU la 8×H100. Să-l depășești este cu adevărat greu. Rezultate: 1. Amândoi s-au comportat ca niște ingineri AI adevărați. Au citit codul, au explorat idei, au rulat mini benchmark-uri, au scris planuri și au început antrenamente complete de la un cap la altul în timp ce eu dormeam. 2. M-am trezit cu adevărate victorii din Opus 4.6: - Torch Compile "Max-Autotune-No-Cudagraphs Mode" (+1,3% viteză) - Optimizator de muoni ns_steps=3 (+0,3% viteză) - BF16 softcap, skip .float() cast (-1GB memorie) Timp total de antrenament: 174,42 m → 171,40 m Codex-5.3-xhigh avea idei interesante și un MFU mai ridicat, dar a afectat calitatea finală. Bănuiesc că limitele de context au contat. Am văzut că la un moment dat a ajuns la 0% din context. 3. Am rulat același experiment mai devreme pe Opus 4.5 și Codex 5.2. Nu au existat câștiguri semnificative. Ambele modele noi sunt clar mai bune. Părere generală: Prefer Opus 4.6 pentru această sarcină specifică. Fereastra de context de 1M contează. UX este mai bun. Oamenii tot spun "Codex 5.3 > Opus 4.6", dar eu cred că modelele diferite strălucesc în baze de cod și sarcini diferite. Două modele puternice sunt un câștig. Le voi folosi cu plăcere pe ambele....