Мої враження від першого дня про Codex 5.3 проти Opus 4.6: Мета: чи зможуть вони справді виконувати роботу інженера/дослідника з ШІ? Коротко: - Так, вони (на диво) можуть. - Opus 4.6 > Codex-5.3-xhigh для цього завдання - обидва — це великий стрибок порівняно з минулим поколінням Завдання: Оптимізувати наночат @karpathy "GPT-2 speedrun" — час від настінного годинника до навчання на рівні GPT-2. Код уже сильно оптимізований. #1 у таблиці лідерів досягає 57,5% MFU на 8×H100. Перемогти його справді важко. Результати: 1. Обидва поводилися як справжні інженери ШІ. Вони читали код, досліджували ідеї, проводили міні-бенчмарки, складали плани і запускали повне наскрізне навчання, поки я спав. 2. Я прокинувся з реальними перемогами в Opus 4.6: - Компіляція факелів "Max-Autotune-no-cudagraphs mode" (+1,3% швидкість) - Оптимізатор мюонів ns_steps=3 (+0,3% швидкості) - BF16 softcap, пропуск .float() cast (-1GB пам'яті) Загальний час тренування: 174,42 м → 171,40 м Codex-5.3-xhigh мав цікаві ідеї та вищий MFU, але погіршував фінальну якість. Підозрюю, що контекстні обмеження мали значення. Я бачив, як у якийсь момент він сягав 0% контексту. 3. Я проводив той самий експеримент раніше на Opus 4.5 та Codex 5.2. Суттєвих здобутків не було. Обидві нові моделі явно кращі. Загальна думка: Я віддаю перевагу Opus 4.6 саме для цього завдання. Контекстне вікно 1M має значення. UX кращий. Люди постійно кажуть «Codex 5.3 > Opus 4.6», але я вважаю, що різні моделі сяють у різних кодових базах і завданнях. Дві сильні моделі — це перемога. Я із задоволенням використаю обидва....