Mé dojmy z prvního dne na Codex 5.3 vs Opus 4.6: Cíl: mohou skutečně dělat práci AI inženýra/výzkumníka? Shrnutí: - Ano, (překvapivě) můžou. - Opus 4.6 > Codex-5.3-xhigh pro tento úkol - Oba jsou velký skok oproti minulé generaci Úkol: Optimalizovat nanochat "GPT-2 speedrun" @karpathy – čas na stěně na úrovni GPT-2. Kód je už teď silně optimalizovaný. #1 na žebříčku dosahuje 57,5 % MFU na 8×H100. Porazit ji je opravdu těžké. Výsledky: 1. Oba se chovali jako skuteční AI inženýři. Četli kód, zkoumali nápady, dělali mini benchmarky, psali plány a spouštěli kompletní komplexní školení, zatímco jsem spal. 2. Probudil jsem se na skutečná vítězství z Opus 4.6: - Torch kompilace "max-autotune-no-cudagraphs mode" (+1,3 % rychlosti) - Optimalizátor mionů ns_steps=3 (+0,3 % rychlosti) - BF16 softcap, přeskočit .float() cast (-1GB paměti) Celkový čas na tréninku: 174,42 m → 171,40 m Codex-5.3-xhigh měl zajímavé nápady a vyšší MFU, ale poškodil konečnou kvalitu. Myslím, že na limitech kontextu záleželo. Viděl jsem, že to jednou dosáhlo 0% kontextu. 3. Stejný experiment jsem provedl dříve na Opus 4.5 a Codex 5.2. Nebyly žádné významné zisky. Oba nové modely jsou jasně lepší. Celkový pohled: Pro tento konkrétní úkol dávám přednost Opusu 4.6. Kontextové okno 1M je důležité. Uživatelské zkušenosti jsou lepší. Lidé pořád říkají "Codex 5.3 > Opus 4.6", ale já věřím, že různé modely vynikají v různých kódových základech a úkolech. Dva silné modely jsou výhra. Rád použiju obojí....