DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Artificial Analysis

Análise independente de modelos de IA e provedores de hospedagem - escolha o melhor modelo e provedor de API para seu caso de uso

A Alibaba expandiu sua família de modelos Qwen3.5 com 3 novos modelos – o modelo 27B se destaca, alcançando 42 no Índice de Inteligência de Análise Artificial e igualando modelos de peso aberto de 8 a 25 vezes maior @Alibaba_Qwen expandiu a família Qwen3.5 com três novos modelos além do topo de linha 397B lançado no início deste mês: o Qwen3.5 27B (Dense, com pontuação 42 no Índice de Inteligência), Qwen3.5 122B A10B (MoE, 42) e Qwen3.5 35B A3B (MoE, 37). Os dois modelos MoE (Mistura de Especialistas) ativam apenas uma fração dos parâmetros totais por passada para frente (10B de 122B e ~3B de 35B, respectivamente). O Índice de Inteligência é nossa métrica de síntese que incorpora 10 avaliações que abrangem raciocínio geral, tarefas agentiais, codificação e raciocínio científico. Todos os modelos são licenciados pelo Apache 2.0, suportam nativamente o contexto 262K e retornam à arquitetura híbrida de pensamento/não-pensamento unificado do Qwen3 original, após o Alibaba migrar para checkpoints separados de Instrução e Raciocínio com as atualizações Qwen3 2507. Principais resultados de benchmarking para as variantes de raciocínio: ➤ Qwen3.5 27B nota 42 no Índice de Inteligência e é o modelo mais inteligente abaixo de 230B. O modelo mais próximo de tamanho semelhante é o GLM-4.7-Flash (31B no total, 3B ativos), que marca 30. Modelos de pesos abertos de inteligência equivalente são 8 a 25 vezes maiores em termos de parâmetros totais: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) e GLM-4.7 (357B, 42). Na precisão FP8, leva ~27GB para armazenar os pesos dos modelos, enquanto na quantização de 4 bits você pode usar hardware de qualidade de laptop com 16GB+ de RAM ➤ Qwen3.5 27B pontua 1205 no GDPval-AA (Tarefas Agenticas do Trabalho do Mundo Real), colocando-o ao lado de modelos maiores. Para contextualizar, MiniMax-M2.5 marca 1206, GLM-4.7 (Raciocínio) 1200 e DeepSeek V3.2 (Raciocínio) 1194. Isso é particularmente notável para um modelo de 27B parâmetros e sugere forte capacidade agente para seu tamanho. O GDPval-AA testa modelos em tarefas do mundo real em 44 ocupações e 9 principais indústrias ➤ AA-Oniciência continua sendo uma fraqueza relativa na família Qwen3.5, impulsionada principalmente por menor precisão e não por taxa de alucinações. Qwen3.5 27B pontua -42 em AA-Oniscience, comparável ao MiniMax-M2.5 (-40), mas atrás do DeepSeek V3.2 (-21) e GLM-4.7 (-35). Embora a taxa de alucinação do Qwen3.5 27B (80%) seja menor que a dos pares (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), sua precisão também é menor, com 21% contra 34% para DeepSeek V3.2 e 29% para GLM-4.7. Isso provavelmente é consequência do tamanho do modelo – geralmente observamos que modelos com mais parâmetros totais têm melhor desempenho em precisão no AA-Omniscience, já que a memória de conhecimento mais ampla se beneficia de contagens maiores de parâmetros ➤ Qwen3.5 27B é equivalentemente inteligente a Qwen3.5 122B A10B. O 122B A10B é um modelo Mistura de Especialistas que ativa apenas 10B de seus 122B totais de parâmetros por passada para frente. O modelo 27B lidera em GDPval-AA (1205 Elo vs 1145 Elo) e ligeiramente em TerminalBench (+1,5 p.p.), enquanto o modelo 122B lidera em SciCode (+2,5 p.p.), HLE (+1,2 p.p.) e tem uma taxa de alucinações menor (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Reasoning, 37) é o modelo mais inteligente com ~3B parâmetros ativos, 7 pontos à frente do GLM-4.7-Flash (30). Outros modelos dessa categoria ativa ~3B incluem Qwen3 Coder Next (80B no total, 28), Qwen3 Next 80B A3B (27) e NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B usou 98M de tokens de saída para rodar o Índice de Inteligência, custando ~$299 via Alibaba Cloud API. Isso representa um uso notavelmente alto de tokens em comparação com modelos de inteligência semelhante: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e até mesmo o maior Qwen3.5 397B (86M). Outras informações: ➤ Janela de contexto: 262K tokens (extensível para 1M via YaRN) ➤ Licença: Apache 2.0 ➤ Precificação da API (Alibaba Cloud): 397 bilhões: $0,60/3,60 dólares, 122 bilhões: 0,40/3,20 dólares, 27 bilhões: 0,30/2,40 dólares, 35 bilhinhões A3B: 0,25/2,00 dólares por 1 milhão de tokens de entrada/saída

Melhores

Classificação

Favoritos