Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Impresiile mele din prima zi despre Codex 5.3 vs Opus 4.6:
Obiectiv: pot ei să facă efectiv treaba unui inginer/cercetător AI?
Pe scurt:
- Da, pot (surprinzător).
- Opus 4.6 > Codex-5.3-xhigh pentru această sarcină
- Ambele sunt un salt mare față de generația trecută
Sarcină: Optimizarea "GPT-2 speedrun" de la nanochat a lui @karpathy - timp de la ceas pe perete până la antrenament la nivel GPT-2. Codul este deja puternic optimizat. #1 în clasament atinge 57,5% MFU la 8×H100. Să-l depășești este cu adevărat greu.
Rezultate:
1. Amândoi s-au comportat ca niște ingineri AI adevărați. Au citit codul, au explorat idei, au rulat mini benchmark-uri, au scris planuri și au început antrenamente complete de la un cap la altul în timp ce eu dormeam.
2. M-am trezit cu adevărate victorii din Opus 4.6:
- Torch Compile "Max-Autotune-No-Cudagraphs Mode" (+1,3% viteză)
- Optimizator de muoni ns_steps=3 (+0,3% viteză)
- BF16 softcap, skip .float() cast (-1GB memorie)
Timp total de antrenament: 174,42 m → 171,40 m
Codex-5.3-xhigh avea idei interesante și un MFU mai ridicat, dar a afectat calitatea finală. Bănuiesc că limitele de context au contat. Am văzut că la un moment dat a ajuns la 0% din context.
3. Am rulat același experiment mai devreme pe Opus 4.5 și Codex 5.2. Nu au existat câștiguri semnificative. Ambele modele noi sunt clar mai bune.
Părere generală:
Prefer Opus 4.6 pentru această sarcină specifică. Fereastra de context de 1M contează. UX este mai bun.
Oamenii tot spun "Codex 5.3 > Opus 4.6", dar eu cred că modelele diferite strălucesc în baze de cod și sarcini diferite.
Două modele puternice sunt un câștig.
Le voi folosi cu plăcere pe ambele....
Limită superioară
Clasament
Favorite
