Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kesan hari pertama saya tentang Codex 5.3 vs Opus 4.6:
Tujuan: bisakah mereka benar-benar melakukan pekerjaan seorang insinyur/peneliti AI?
TLDR:
- Ya, mereka (secara mengejutkan) bisa.
- Opus 4.6 > Codex-5.3-xhigh untuk tugas ini
- keduanya adalah lompatan besar dari generasi terakhir
Tugas: Optimalkan nanochat @karpathy "GPT-2 speedrun" - waktu jam dinding ke pelatihan tingkat GPT-2. Kodenya sudah sangat dioptimalkan. #1 di papan peringkat mencapai 57.5% MFU pada 8×H100. Mengalahkannya benar-benar sulit.
Hasil:
1. Keduanya berperilaku seperti insinyur AI sungguhan. Mereka membaca kode, mengeksplorasi ide, menjalankan tolok ukur mini, menulis rencana, dan memulai pelatihan end-to-end penuh saat saya tidur.
2. Saya terbangun dengan kemenangan nyata dari Opus 4.6:
- kompilasi obor "mode max-autotune-no-cudagraphs" (+kecepatan 1,3%)
- Pengoptimal muon ns_steps=3 (+0,3% kecepatan)
- Softcap BF16, lewati .float() cast (memori -1GB)
Total waktu pelatihan: 174.42m → 171.40m
Codex-5.3-xhigh memiliki ide-ide menarik dan MFU yang lebih tinggi, tetapi merusak kualitas akhir. Saya menduga batasan konteks itu penting. Saya melihatnya mencapai konteks 0% pada satu titik.
3. Saya menjalankan eksperimen yang sama sebelumnya di Opus 4.5 dan Codex 5.2. Tidak ada keuntungan yang berarti. Kedua model baru jelas lebih baik.
Pengambilan keseluruhan:
Saya lebih suka Opus 4.6 untuk tugas khusus ini. Jendela konteks 1M penting. UX lebih baik.
Orang-orang terus mengatakan "Codex 5.3 > Opus 4.6", tetapi saya percaya model yang berbeda bersinar dalam basis kode dan tugas yang berbeda.
Dua model yang kuat adalah kemenangan.
Saya akan dengan senang hati menggunakan keduanya....
Teratas
Peringkat
Favorit
