Kesan hari pertama saya tentang Codex 5.3 vs Opus 4.6: Tujuan: bisakah mereka benar-benar melakukan pekerjaan seorang insinyur/peneliti AI? TLDR: - Ya, mereka (secara mengejutkan) bisa. - Opus 4.6 > Codex-5.3-xhigh untuk tugas ini - keduanya adalah lompatan besar dari generasi terakhir Tugas: Optimalkan nanochat @karpathy "GPT-2 speedrun" - waktu jam dinding ke pelatihan tingkat GPT-2. Kodenya sudah sangat dioptimalkan. #1 di papan peringkat mencapai 57.5% MFU pada 8×H100. Mengalahkannya benar-benar sulit. Hasil: 1. Keduanya berperilaku seperti insinyur AI sungguhan. Mereka membaca kode, mengeksplorasi ide, menjalankan tolok ukur mini, menulis rencana, dan memulai pelatihan end-to-end penuh saat saya tidur. 2. Saya terbangun dengan kemenangan nyata dari Opus 4.6: - kompilasi obor "mode max-autotune-no-cudagraphs" (+kecepatan 1,3%) - Pengoptimal muon ns_steps=3 (+0,3% kecepatan) - Softcap BF16, lewati .float() cast (memori -1GB) Total waktu pelatihan: 174.42m → 171.40m Codex-5.3-xhigh memiliki ide-ide menarik dan MFU yang lebih tinggi, tetapi merusak kualitas akhir. Saya menduga batasan konteks itu penting. Saya melihatnya mencapai konteks 0% pada satu titik. 3. Saya menjalankan eksperimen yang sama sebelumnya di Opus 4.5 dan Codex 5.2. Tidak ada keuntungan yang berarti. Kedua model baru jelas lebih baik. Pengambilan keseluruhan: Saya lebih suka Opus 4.6 untuk tugas khusus ini. Jendela konteks 1M penting. UX lebih baik. Orang-orang terus mengatakan "Codex 5.3 > Opus 4.6", tetapi saya percaya model yang berbeda bersinar dalam basis kode dan tugas yang berbeda. Dua model yang kuat adalah kemenangan. Saya akan dengan senang hati menggunakan keduanya....