Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Minhas impressões do primeiro dia sobre o Codex 5.3 vs Opus 4.6:
Objetivo: eles realmente conseguem fazer o trabalho de um engenheiro/pesquisador de IA?
Resumo:
- Sim, eles (surpreendentemente) podem.
- Opus 4.6 > Codex-5.3-xhigh para essa tarefa
- Ambos são um grande salto em relação à geração passada
Tarefa: Otimizar o "speedrun GPT-2" do nanochat do @karpathy - tempo de parede para treinamento em nível GPT-2. O código já está fortemente otimizado. #1 no ranking atinge 57,5% de MFU no 8×H100. Vencer é realmente difícil.
Resultados:
1. Ambos se comportaram como engenheiros de IA de verdade. Eles leram o código, exploraram ideias, rodaram mini benchmarks, escreveram planos e começaram treinamentos completos de ponta a ponta enquanto eu dormia.
2. Acordei com vitórias reais do Opus 4.6:
- Compilação de maçaricos "modo max-autotune-no-cudagraphs" (+1,3% de velocidade)
- Otimizador de múons ns_steps=3 (+0,3% de velocidade)
- BF16 softcap, skip .float() cast (-1GB de memória)
Tempo total de treinamento: 174,42m → 171,40m
Codex-5.3-xhigh tinha ideias interessantes e MFU mais alto, mas prejudicou a qualidade final. Suspeito que limites de contexto importavam. Vi que chegou a 0% de contexto em um momento.
3. Eu rodei o mesmo experimento mais cedo no Opus 4.5 e no Codex 5.2. Não houve ganhos significativos. Ambos os modelos novos são claramente melhores.
Opinião geral:
Prefiro o Opus 4.6 para essa tarefa específica. A janela de contexto de 1M importa. A experiência de usuário é melhor.
As pessoas continuam dizendo "Codex 5.3 > Opus 4.6", mas acredito que modelos diferentes brilham em bases de código e tarefas diferentes.
Dois modelos fortes já são uma vitória.
Vou usar os dois com prazer....
Melhores
Classificação
Favoritos
