Minhas impressões do primeiro dia sobre o Codex 5.3 vs Opus 4.6: Objetivo: eles realmente conseguem fazer o trabalho de um engenheiro/pesquisador de IA? Resumo: - Sim, eles (surpreendentemente) podem. - Opus 4.6 > Codex-5.3-xhigh para essa tarefa - Ambos são um grande salto em relação à geração passada Tarefa: Otimizar o "speedrun GPT-2" do nanochat do @karpathy - tempo de parede para treinamento em nível GPT-2. O código já está fortemente otimizado. #1 no ranking atinge 57,5% de MFU no 8×H100. Vencer é realmente difícil. Resultados: 1. Ambos se comportaram como engenheiros de IA de verdade. Eles leram o código, exploraram ideias, rodaram mini benchmarks, escreveram planos e começaram treinamentos completos de ponta a ponta enquanto eu dormia. 2. Acordei com vitórias reais do Opus 4.6: - Compilação de maçaricos "modo max-autotune-no-cudagraphs" (+1,3% de velocidade) - Otimizador de múons ns_steps=3 (+0,3% de velocidade) - BF16 softcap, skip .float() cast (-1GB de memória) Tempo total de treinamento: 174,42m → 171,40m Codex-5.3-xhigh tinha ideias interessantes e MFU mais alto, mas prejudicou a qualidade final. Suspeito que limites de contexto importavam. Vi que chegou a 0% de contexto em um momento. 3. Eu rodei o mesmo experimento mais cedo no Opus 4.5 e no Codex 5.2. Não houve ganhos significativos. Ambos os modelos novos são claramente melhores. Opinião geral: Prefiro o Opus 4.6 para essa tarefa específica. A janela de contexto de 1M importa. A experiência de usuário é melhor. As pessoas continuam dizendo "Codex 5.3 > Opus 4.6", mas acredito que modelos diferentes brilham em bases de código e tarefas diferentes. Dois modelos fortes já são uma vitória. Vou usar os dois com prazer....