A Alibaba entregou quatro modelos pequenos Qwen 3.5 com um truque emprestado do modelo 397B: a atenção híbrida Gated DeltaNet. Três camadas de atenção linear para cada camada de atenção total. As camadas lineares lidam com cálculos rotineiros com uso constante de memória. As camadas de atenção total só disparam quando a precisão importa. Essa proporção 3:1 mantém a memória estável enquanto a qualidade permanece alta, por isso até mesmo o modelo 0,8B suporta uma janela de contexto de 262.000 tokens. Cada modelo lida com texto, imagens e vídeo nativamente. Sem adaptador parafusado depois. O codificador de visão usa convoluções 3D para capturar movimento em vídeo, depois funde recursos de múltiplas camadas em vez de apenas a final. O 9B supera o GPT-5-Nano em 13 pontos em compreensão multimodal, 17 pontos em matemática visual e 30 pontos em análise sintática de documentos. O 0.8B roda em um celular e processa vídeo. O 4B cabe em 8GB de VRAM e atua como um agente multimodal. Todos os quatro são Apache 2.0. Se essa arquitetura se manter, o espaço de modelos pequenos acaba se tornando uma corrida de capacidades em vez de uma corrida de tamanho. Há um ano, rodar um modelo multimodal localmente significava um modelo 13B+ e uma GPU séria. Agora, um modelo 4B com contexto 262K lida com texto, imagens e vídeo de hardware de consumo. A distância entre modelos de borda e modelos topo de gama está diminuindo mais rápido do que a diferença entre navios principais e humanos.