トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Codex 5.3とOpus 4.6の初日の印象:
目標:AIエンジニアや研究者の仕事を実際にこなせるのか?
要約:
- はい、(驚くことに)可能です。
- Opus 4.6 > Codex-5.3-xhigh この任務用
- どちらも前世代から大きく進化しています
タスク:@karpathyのナノチャット「GPT-2スピードラン」を最適化し、GPT-2レベルのトレーニングにウォールクロックタイムを達成すること。コードはすでに大幅に最適化されています。リーダーボードの#1は8×H100で57.5%のMFUを達成。それをクリアするのは本当に難しいです。
結果:
1. 両者とも本物のAIエンジニアのように振る舞いました。彼らはコードを読み、アイデアを探求し、ミニベンチマークを実行し、計画を書き、私が寝ている間にエンドツーエンドのフルトレーニングを開始しました。
2. 作品4.6から本当の勝利を得て目覚めました:
- Torch コンパイル「Max-Autotune-no-cudagraphs mode」(速度+1.3%)
- ミューオン最適化器 ns_steps=3(速度+0.3%)
- BF16ソフトキャップ、.float()キャスト(-1GBメモリ)
総トレーニング時間:174.42m→171.40m。
Codex-5.3-xhighは興味深いアイデアと高いMFUを持っていましたが、最終的な品質を損なってしまいました。文脈の制限も重要だったのではないかと思います。ある時点でコンテキストが0%になるのを見ました。
3. 同じ実験をOpus 4.5とCodex 5.2で行いました。意味のある成果はありませんでした。どちらの新モデルも明らかに優れています。
総合的な見解:
この特定のタスクにはOpus 4.6を好みます。100万のコンテキストウィンドウが重要です。UXも優れています。
「Codex 5.3 > Opus 4.6」と言われる人がいますが、私は異なるモデルが異なるコードベースやタスクで輝くと信じています。
強力なモデルが2つあれば勝利です。
両方喜んで使います。...
トップ
ランキング
お気に入り
