Codex 5.3とOpus 4.6の初日の印象: 目標:AIエンジニアや研究者の仕事を実際にこなせるのか? 要約: - はい、(驚くことに)可能です。 - Opus 4.6 > Codex-5.3-xhigh この任務用 - どちらも前世代から大きく進化しています タスク:@karpathyのナノチャット「GPT-2スピードラン」を最適化し、GPT-2レベルのトレーニングにウォールクロックタイムを達成すること。コードはすでに大幅に最適化されています。リーダーボードの#1は8×H100で57.5%のMFUを達成。それをクリアするのは本当に難しいです。 結果: 1. 両者とも本物のAIエンジニアのように振る舞いました。彼らはコードを読み、アイデアを探求し、ミニベンチマークを実行し、計画を書き、私が寝ている間にエンドツーエンドのフルトレーニングを開始しました。 2. 作品4.6から本当の勝利を得て目覚めました: - Torch コンパイル「Max-Autotune-no-cudagraphs mode」(速度+1.3%) - ミューオン最適化器 ns_steps=3(速度+0.3%) - BF16ソフトキャップ、.float()キャスト(-1GBメモリ) 総トレーニング時間:174.42m→171.40m。 Codex-5.3-xhighは興味深いアイデアと高いMFUを持っていましたが、最終的な品質を損なってしまいました。文脈の制限も重要だったのではないかと思います。ある時点でコンテキストが0%になるのを見ました。 3. 同じ実験をOpus 4.5とCodex 5.2で行いました。意味のある成果はありませんでした。どちらの新モデルも明らかに優れています。 総合的な見解: この特定のタスクにはOpus 4.6を好みます。100万のコンテキストウィンドウが重要です。UXも優れています。 「Codex 5.3 > Opus 4.6」と言われる人がいますが、私は異なるモデルが異なるコードベースやタスクで輝くと信じています。 強力なモデルが2つあれば勝利です。 両方喜んで使います。...