Alibaba heeft vier Qwen 3.5 kleine modellen verzonden met een truc geleend van hun 397B model: Gated DeltaNet hybride aandacht. Drie lagen lineaire aandacht voor elke laag volledige aandacht. De lineaire lagen verwerken routinematige berekeningen met constant geheugengebruik. De lagen met volledige aandacht worden alleen geactiveerd wanneer precisie belangrijk is. Deze 3:1 verhouding houdt het geheugen vlak terwijl de kwaliteit hoog blijft, wat de reden is dat zelfs het 0.8B model een contextvenster van 262.000 tokens ondersteunt. Elk model verwerkt tekst, afbeeldingen en video op een native manier. Geen adapter die er achteraf op is gemonteerd. De visie-encoder gebruikt 3D-convoluties om beweging in video vast te leggen, en voegt vervolgens kenmerken van meerdere lagen samen in plaats van alleen de laatste. De 9B verslaat GPT-5-Nano met 13 punten op multimodale begrip, 17 punten op visuele wiskunde, en 30 punten op document parsing. De 0.8B draait op een telefoon en verwerkt video. De 4B past in 8GB VRAM en fungeert als een multimodale agent. Alle vier zijn Apache 2.0. Als deze architectuur standhoudt, is de ruimte voor kleine modellen net een capaciteitsrace geworden in plaats van een grootte-race. Een jaar geleden betekende het lokaal draaien van een multimodaal model een 13B+ model en een serieuze GPU. Nu verwerkt een 4B model met 262K context tekst, afbeeldingen en video vanaf consumentenharde schijven. De kloof tussen edge-modellen en vlaggenschipmodellen sluit sneller dan de kloof tussen vlaggenschepen en mensen.