Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ensimmäisen päivän vaikutelmani Codex 5.3:sta vs Opus 4.6:sta:
Tavoite: voivatko he oikeasti tehdä tekoälyinsinöörin/tutkijan työn?
TLDR:
- Kyllä, he voivat (yllättäen).
- Opus 4.6 > Codex-5.3-xhigh tähän tehtävään
- Molemmat ovat iso harppaus edelliseen sukupolveen verrattuna
Tehtävä: Optimoi @karpathy:n nanochat "GPT-2 speedrun" – seinäkelloaika GPT-2-tason koulutukseen. Koodi on jo vahvasti optimoitu. #1 tulostaulukossa saavuttaa 57,5 % MFU 8×H100:lla. Sen voittaminen on aidosti vaikeaa.
Tulokset:
1. Molemmat käyttäytyivät kuin oikeat tekoälyinsinöörit. He lukivat koodin, tutkivat ideoita, suorittivat minitestejä, kirjoittivat suunnitelmia ja käynnistivät täyden kokonaisvaltaisen koulutuksen minun nukkuessani.
2. Heräsin todellisiin voittoihin Opus 4.6:sta:
- Torch compile "Max-Autotune-No-Cudagraphs Mode" (+1,3 % nopeus)
- Muonin optimointi ns_steps=3 (+0,3 % nopeus)
- BF16 softcap, ohita .float() cast (-1GB muisti)
Kokonaisharjoitteluaika: 174,42 m → 171,40 m
Codex-5.3-xhighilla oli mielenkiintoisia ideoita ja korkeampi MFU, mutta se heikensi loppulaatua. Epäilen, että kontekstirajoituksilla oli merkitystä. Näin, että se saavutti nolla % kontekstista jossain vaiheessa.
3. Suoritin saman kokeen aiemmin Opus 4.5:ssä ja Codex 5.2:ssa. Merkittäviä edistysaskeleita ei ollut. Molemmat uudet mallit ovat selvästi parempia.
Yleinen näkemys:
Pidän enemmän Opus 4.6:sta juuri tähän tehtävään. 1 miljoonan kontekstin ikkuna on tärkeä. Käyttökokemus on parempi.
Ihmiset sanovat jatkuvasti "Codex 5.3 > Opus 4.6", mutta uskon, että eri mallit loistavat eri koodipohjissa ja tehtävissä.
Kaksi vahvaa mallia on voitto.
Käytän mielelläni molempia....
Johtavat
Rankkaus
Suosikit
