Moje pierwsze wrażenia z dnia na Codex 5.3 vs Opus 4.6: Cel: czy mogą rzeczywiście pełnić rolę inżyniera/badacza AI? TLDR: - Tak, (zaskakująco) mogą. - Opus 4.6 > Codex-5.3-xhigh w tej kwestii - oba to duży skok w porównaniu do poprzedniej generacji Zadanie: Optymalizuj nanochat „GPT-2 speedrun” @karpathy - czas rzeczywisty do treningu na poziomie GPT-2. Kod jest już mocno zoptymalizowany. #1 na liście liderów osiąga 57,5% MFU na 8×H100. Pokonanie go jest naprawdę trudne. Wyniki: 1. Oba zachowywały się jak prawdziwi inżynierowie AI. Czytały kod, badały pomysły, przeprowadzały mini benchmarki, pisały plany i uruchamiały pełne szkolenie end-to-end, podczas gdy spałem. 2. Obudziłem się z prawdziwymi sukcesami z Opus 4.6: - torch compile "max-autotune-no-cudagraphs mode" (+1,3% prędkości) - Muon optimizer ns_steps=3 (+0,3% prędkości) - BF16 softcap, pomiń rzutowanie .float() (-1GB pamięci) Całkowity czas treningu: 174,42m → 171,40m Codex-5.3-xhigh miał interesujące pomysły i wyższe MFU, ale zaszkodził ostatecznej jakości. Podejrzewam, że ograniczenia kontekstowe miały znaczenie. W pewnym momencie widziałem, że osiągnął 0% kontekstu. 3. Przeprowadziłem ten sam eksperyment wcześniej na Opus 4.5 i Codex 5.2. Nie było znaczących zysków. Oba nowe modele są zdecydowanie lepsze. Ogólne wrażenie: Preferuję Opus 4.6 do tego konkretnego zadania. Okno kontekstowe 1M ma znaczenie. UX jest lepszy. Ludzie ciągle mówią „Codex 5.3 > Opus 4.6”, ale wierzę, że różne modele błyszczą w różnych bazach kodu i zadaniach. Dwa silne modele to wygrana. Z przyjemnością będę korzystać z obu....