Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ấn tượng của tôi trong ngày đầu tiên về Codex 5.3 so với Opus 4.6:
Mục tiêu: liệu chúng có thực sự làm được công việc của một kỹ sư/nghiên cứu viên AI không?
Tóm tắt:
- Có, chúng (thật bất ngờ) có thể.
- Opus 4.6 > Codex-5.3-xhigh cho nhiệm vụ này
- cả hai đều là một bước nhảy lớn so với thế hệ trước
Nhiệm vụ: Tối ưu hóa nanochat “GPT-2 speedrun” của @karpathy - thời gian thực tế để đào tạo ở mức độ GPT-2. Mã đã được tối ưu hóa rất nhiều. #1 trên bảng xếp hạng đạt 57.5% MFU trên 8×H100. Đánh bại nó thực sự rất khó.
Kết quả:
1. Cả hai đều hành xử như những kỹ sư AI thực thụ. Chúng đọc mã, khám phá ý tưởng, chạy các bài kiểm tra nhỏ, viết kế hoạch và khởi động quá trình đào tạo toàn diện trong khi tôi ngủ.
2. Tôi thức dậy với những thành công thực sự từ Opus 4.6:
- biên dịch torch "max-autotune-no-cudagraphs mode" (+1.3% tốc độ)
- bộ tối ưu hóa Muon ns_steps=3 (+0.3% tốc độ)
- BF16 softcap, bỏ qua .float() cast (-1GB bộ nhớ)
Tổng thời gian đào tạo: 174.42m → 171.40m
Codex-5.3-xhigh có những ý tưởng thú vị và MFU cao hơn, nhưng làm giảm chất lượng cuối cùng. Tôi nghi ngờ rằng các giới hạn ngữ cảnh có thể đã ảnh hưởng. Tôi đã thấy nó đạt 0% ngữ cảnh vào một thời điểm nào đó.
3. Tôi đã thực hiện cùng một thí nghiệm trước đó trên Opus 4.5 và Codex 5.2. Không có sự cải thiện đáng kể nào. Cả hai mô hình mới đều rõ ràng tốt hơn.
Nhận xét tổng thể:
Tôi thích Opus 4.6 cho nhiệm vụ cụ thể này. Cửa sổ ngữ cảnh 1M là quan trọng. Trải nghiệm người dùng tốt hơn.
Mọi người cứ nói “Codex 5.3 > Opus 4.6”, nhưng tôi tin rằng các mô hình khác nhau tỏa sáng trong các mã nguồn và nhiệm vụ khác nhau.
Hai mô hình mạnh là một chiến thắng.
Tôi sẽ vui vẻ sử dụng cả hai....
Hàng đầu
Thứ hạng
Yêu thích
