Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mé dojmy z prvního dne na Codex 5.3 vs Opus 4.6:
Cíl: mohou skutečně dělat práci AI inženýra/výzkumníka?
Shrnutí:
- Ano, (překvapivě) můžou.
- Opus 4.6 > Codex-5.3-xhigh pro tento úkol
- Oba jsou velký skok oproti minulé generaci
Úkol: Optimalizovat nanochat "GPT-2 speedrun" @karpathy – čas na stěně na úrovni GPT-2. Kód je už teď silně optimalizovaný. #1 na žebříčku dosahuje 57,5 % MFU na 8×H100. Porazit ji je opravdu těžké.
Výsledky:
1. Oba se chovali jako skuteční AI inženýři. Četli kód, zkoumali nápady, dělali mini benchmarky, psali plány a spouštěli kompletní komplexní školení, zatímco jsem spal.
2. Probudil jsem se na skutečná vítězství z Opus 4.6:
- Torch kompilace "max-autotune-no-cudagraphs mode" (+1,3 % rychlosti)
- Optimalizátor mionů ns_steps=3 (+0,3 % rychlosti)
- BF16 softcap, přeskočit .float() cast (-1GB paměti)
Celkový čas na tréninku: 174,42 m → 171,40 m
Codex-5.3-xhigh měl zajímavé nápady a vyšší MFU, ale poškodil konečnou kvalitu. Myslím, že na limitech kontextu záleželo. Viděl jsem, že to jednou dosáhlo 0% kontextu.
3. Stejný experiment jsem provedl dříve na Opus 4.5 a Codex 5.2. Nebyly žádné významné zisky. Oba nové modely jsou jasně lepší.
Celkový pohled:
Pro tento konkrétní úkol dávám přednost Opusu 4.6. Kontextové okno 1M je důležité. Uživatelské zkušenosti jsou lepší.
Lidé pořád říkají "Codex 5.3 > Opus 4.6", ale já věřím, že různé modely vynikají v různých kódových základech a úkolech.
Dva silné modely jsou výhra.
Rád použiju obojí....
Top
Hodnocení
Oblíbené
