Ensimmäisen päivän vaikutelmani Codex 5.3:sta vs Opus 4.6:sta: Tavoite: voivatko he oikeasti tehdä tekoälyinsinöörin/tutkijan työn? TLDR: - Kyllä, he voivat (yllättäen). - Opus 4.6 > Codex-5.3-xhigh tähän tehtävään - Molemmat ovat iso harppaus edelliseen sukupolveen verrattuna Tehtävä: Optimoi @karpathy:n nanochat "GPT-2 speedrun" – seinäkelloaika GPT-2-tason koulutukseen. Koodi on jo vahvasti optimoitu. #1 tulostaulukossa saavuttaa 57,5 % MFU 8×H100:lla. Sen voittaminen on aidosti vaikeaa. Tulokset: 1. Molemmat käyttäytyivät kuin oikeat tekoälyinsinöörit. He lukivat koodin, tutkivat ideoita, suorittivat minitestejä, kirjoittivat suunnitelmia ja käynnistivät täyden kokonaisvaltaisen koulutuksen minun nukkuessani. 2. Heräsin todellisiin voittoihin Opus 4.6:sta: - Torch compile "Max-Autotune-No-Cudagraphs Mode" (+1,3 % nopeus) - Muonin optimointi ns_steps=3 (+0,3 % nopeus) - BF16 softcap, ohita .float() cast (-1GB muisti) Kokonaisharjoitteluaika: 174,42 m → 171,40 m Codex-5.3-xhighilla oli mielenkiintoisia ideoita ja korkeampi MFU, mutta se heikensi loppulaatua. Epäilen, että kontekstirajoituksilla oli merkitystä. Näin, että se saavutti nolla % kontekstista jossain vaiheessa. 3. Suoritin saman kokeen aiemmin Opus 4.5:ssä ja Codex 5.2:ssa. Merkittäviä edistysaskeleita ei ollut. Molemmat uudet mallit ovat selvästi parempia. Yleinen näkemys: Pidän enemmän Opus 4.6:sta juuri tähän tehtävään. 1 miljoonan kontekstin ikkuna on tärkeä. Käyttökokemus on parempi. Ihmiset sanovat jatkuvasti "Codex 5.3 > Opus 4.6", mutta uskon, että eri mallit loistavat eri koodipohjissa ja tehtävissä. Kaksi vahvaa mallia on voitto. Käytän mielelläni molempia....