Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

A Alibaba expandiu sua família de modelos Qwen3.5 com 3 novos modelos - o modelo 27B se destaca, marcando 42 no Índice de Análise de Inteligência Artificial e igualando modelos de pesos abertos 8-25x seu tamanho @Alibaba_Qwen expandiu a família Qwen3.5 com três novos modelos ao lado do modelo principal de 397B lançado no início deste mês: o Qwen3.5 27B (Denso, marcando 42 no Índice de Inteligência), Qwen3.5 122B A10B (MoE, 42) e Qwen3.5 35B A3B (MoE, 37). Os dois modelos MoE (Mistura de Especialistas) ativam apenas uma fração dos parâmetros totais por passagem (10B de 122B e ~3B de 35B, respectivamente). O Índice de Inteligência é nossa métrica de síntese que incorpora 10 avaliações cobrindo raciocínio geral, tarefas agentivas, codificação e raciocínio científico. Todos os modelos têm licença Apache 2.0, suportam nativamente 262K de contexto e retornam à arquitetura híbrida de pensamento/não pensamento unificada do Qwen3 original, após a Alibaba ter mudado para separar os pontos de verificação de Instrução e Raciocínio com as atualizações Qwen3 2507. Resultados principais de benchmarking para as variantes de raciocínio: ➤ O Qwen3.5 27B marca 42 no Índice de Inteligência e é o modelo mais inteligente abaixo de 230B. O modelo mais próximo de tamanho similar é o GLM-4.7-Flash (31B total, 3B ativo) que marca 30. Modelos de pesos abertos de inteligência equivalente são 8-25x maiores em termos de parâmetros totais: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) e GLM-4.7 (357B, 42). Em precisão FP8, leva ~27GB para armazenar os pesos do modelo, enquanto na quantização de 4 bits você pode usar hardware de qualidade de laptop com 16GB+ de RAM ➤ O Qwen3.5 27B marca 1205 no GDPval-AA (Tarefas de Trabalho do Mundo Real Agentivas), colocando-o ao lado de modelos maiores. Para contexto, o MiniMax-M2.5 marca 1206, o GLM-4.7 (Raciocínio) marca 1200 e o DeepSeek V3.2 (Raciocínio) marca 1194. Isso é particularmente notável para um modelo de 27B de parâmetros e sugere uma forte capacidade agentiva para seu tamanho. O GDPval-AA testa modelos em tarefas do mundo real em 44 ocupações e 9 indústrias principais ➤ AA-Omniscience continua a ser uma fraqueza relativa em toda a família Qwen3.5, impulsionada principalmente por menor precisão em vez de taxa de alucinação. O Qwen3.5 27B marca -42 em AA-Omniscience, comparável ao MiniMax-M2.5 (-40), mas atrás do DeepSeek V3.2 (-21) e do GLM-4.7 (-35). Embora a taxa de alucinação do Qwen3.5 27B (80%) seja menor que a dos pares (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), sua precisão também é menor em 21% contra 34% para o DeepSeek V3.2 e 29% para o GLM-4.7. Isso é provavelmente uma consequência do tamanho do modelo - geralmente observamos que modelos com mais parâmetros totais têm melhor desempenho em precisão no AA-Omniscience, já que a recuperação de conhecimento mais ampla se beneficia de contagens de parâmetros maiores ➤ O Qwen3.5 27B é equivalentemente inteligente ao Qwen3.5 122B A10B. O 122B A10B é um modelo de Mistura de Especialistas que ativa apenas 10B de seus 122B de parâmetros totais por passagem. O modelo 27B lidera no GDPval-AA (1205 Elo contra 1145 Elo) e ligeiramente no TerminalBench (+1.5 p.p.), enquanto o modelo 122B lidera no SciCode (+2.5 p.p.), HLE (+1.2 p.p.) e tem uma taxa de alucinação mais baixa (Omniscience -40 contra -42) ➤ O Qwen3.5 35B A3B (Raciocínio, 37) é o modelo mais inteligente com ~3B de parâmetros ativos, 7 pontos à frente do GLM-4.7-Flash (30). Outros modelos nesta categoria de ~3B ativos incluem Qwen3 Coder Next (80B total, 28), Qwen3 Next 80B A3B (27) e NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ O Qwen3.5 27B usou 98M de tokens de saída para executar o Índice de Inteligência, custando ~$299 via API da Alibaba Cloud. Isso é notavelmente alto em uso de tokens em comparação com modelos de inteligência similar: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e até mesmo o maior Qwen3.5 397B (86M). Outras informações: ➤ Janela de contexto: 262K tokens (extensível para 1M via YaRN) ➤ Licença: Apache 2.0 ➤ Preços da API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 por 1M de tokens de entrada/saída

O Qwen3.5 27B destaca-se pela capacidade agente no seu tamanho de modelo. Com um Elo de 1205 no GDPval-AA, iguala modelos com 8-25x mais parâmetros totais e fica atrás do modelo principal de 397B (1208) por apenas 3 pontos, apesar de ser ~14x menor.

Entre os modelos de pesos abertos com 40B de parâmetros totais ou menos, Qwen3.5 27B e 35B A3B destacam-se como os líderes claros no Índice de Inteligência. O próximo modelo mais inteligente nesta categoria de tamanho é o GLM-4.7-Flash (30)

Compare a família completa Qwen3.5 com outros modelos líderes em: Repositório Qwen3.5 27B HuggingFace:

3,63K

Top

Classificação

Favoritos