Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Moje pierwsze wrażenia z dnia na Codex 5.3 vs Opus 4.6:
Cel: czy mogą rzeczywiście pełnić rolę inżyniera/badacza AI?
TLDR:
- Tak, (zaskakująco) mogą.
- Opus 4.6 > Codex-5.3-xhigh w tej kwestii
- oba to duży skok w porównaniu do poprzedniej generacji
Zadanie: Optymalizuj nanochat „GPT-2 speedrun” @karpathy - czas rzeczywisty do treningu na poziomie GPT-2. Kod jest już mocno zoptymalizowany. #1 na liście liderów osiąga 57,5% MFU na 8×H100. Pokonanie go jest naprawdę trudne.
Wyniki:
1. Oba zachowywały się jak prawdziwi inżynierowie AI. Czytały kod, badały pomysły, przeprowadzały mini benchmarki, pisały plany i uruchamiały pełne szkolenie end-to-end, podczas gdy spałem.
2. Obudziłem się z prawdziwymi sukcesami z Opus 4.6:
- torch compile "max-autotune-no-cudagraphs mode" (+1,3% prędkości)
- Muon optimizer ns_steps=3 (+0,3% prędkości)
- BF16 softcap, pomiń rzutowanie .float() (-1GB pamięci)
Całkowity czas treningu: 174,42m → 171,40m
Codex-5.3-xhigh miał interesujące pomysły i wyższe MFU, ale zaszkodził ostatecznej jakości. Podejrzewam, że ograniczenia kontekstowe miały znaczenie. W pewnym momencie widziałem, że osiągnął 0% kontekstu.
3. Przeprowadziłem ten sam eksperyment wcześniej na Opus 4.5 i Codex 5.2. Nie było znaczących zysków. Oba nowe modele są zdecydowanie lepsze.
Ogólne wrażenie:
Preferuję Opus 4.6 do tego konkretnego zadania. Okno kontekstowe 1M ma znaczenie. UX jest lepszy.
Ludzie ciągle mówią „Codex 5.3 > Opus 4.6”, ale wierzę, że różne modele błyszczą w różnych bazach kodu i zadaniach.
Dwa silne modele to wygrana.
Z przyjemnością będę korzystać z obu....
Najlepsze
Ranking
Ulubione
