Hoje, estamos a anunciar uma pré-visualização do ARC-AGI-3, o Benchmark de Raciocínio Interativo com a maior diferença entre fácil para humanos e difícil para IA Estamos a lançar: * 3 jogos (ambientes) * concurso de agentes de $10K * API de agentes de IA Pontuações iniciais - IA de Fronteira: 0%, Humanos: 100%
o3 (esquerda) e Grok 4 (direita) replays abaixo spoiler: nenhum completa um único nível
Os jogos ARC-AGI-3 Preview precisam ser testados de pressão. Estamos organizando uma competição de agentes de 30 dias em parceria com a @huggingface Apelamos à comunidade para construir agentes (e ganhar dinheiro!)
297,48K