Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мої враження від першого дня про Codex 5.3 проти Opus 4.6:
Мета: чи зможуть вони справді виконувати роботу інженера/дослідника з ШІ?
Коротко:
- Так, вони (на диво) можуть.
- Opus 4.6 > Codex-5.3-xhigh для цього завдання
- обидва — це великий стрибок порівняно з минулим поколінням
Завдання: Оптимізувати наночат @karpathy "GPT-2 speedrun" — час від настінного годинника до навчання на рівні GPT-2. Код уже сильно оптимізований. #1 у таблиці лідерів досягає 57,5% MFU на 8×H100. Перемогти його справді важко.
Результати:
1. Обидва поводилися як справжні інженери ШІ. Вони читали код, досліджували ідеї, проводили міні-бенчмарки, складали плани і запускали повне наскрізне навчання, поки я спав.
2. Я прокинувся з реальними перемогами в Opus 4.6:
- Компіляція факелів "Max-Autotune-no-cudagraphs mode" (+1,3% швидкість)
- Оптимізатор мюонів ns_steps=3 (+0,3% швидкості)
- BF16 softcap, пропуск .float() cast (-1GB пам'яті)
Загальний час тренування: 174,42 м → 171,40 м
Codex-5.3-xhigh мав цікаві ідеї та вищий MFU, але погіршував фінальну якість. Підозрюю, що контекстні обмеження мали значення. Я бачив, як у якийсь момент він сягав 0% контексту.
3. Я проводив той самий експеримент раніше на Opus 4.5 та Codex 5.2. Суттєвих здобутків не було. Обидві нові моделі явно кращі.
Загальна думка:
Я віддаю перевагу Opus 4.6 саме для цього завдання. Контекстне вікно 1M має значення. UX кращий.
Люди постійно кажуть «Codex 5.3 > Opus 4.6», але я вважаю, що різні моделі сяють у різних кодових базах і завданнях.
Дві сильні моделі — це перемога.
Я із задоволенням використаю обидва....
Найкращі
Рейтинг
Вибране
