Echt indrukwekkende release van hybride kleine modellen van het Qwen-team, zoals altijd!
Mensen vragen zich af hoe ze zich verhouden in snelheid, latentie en geheugen ten opzichte van @liquidai’s LFM's voor on-device implementatie?
Hier is een snelle profilering op Apple M3 Ultra:
> LFM2.5-1.2B is 52% sneller in decoderen dan de Qwen3.5-0.8B.
> LFM2-700M is 71% sneller dan Qwen3.5-0.8B bij decoderen
> LFM2-2.6B heeft dezelfde snelheid als Qwen3.5-2B bij decoderen
> LFM2-700M gebruikt 46% minder piekgeheugen dan Qwen3.5-0.8B
> LFM2-2.6B gebruikt 21% minder piekgeheugen dan Qwen3.5-2B
> LFM's prefill met dezelfde parameter grootte is over het algemeen 12% sneller dan Qwen3.5
We hebben de LFM2-serie ontworpen met onze hardware-in-the-loop meta AI ontwerpmethode die ons in staat stelt de meest efficiënte architectuur voor een gegeven processor te vinden zonder kwaliteitsverlies.
Deze test is uitgevoerd op Apple M3 Ultra, 512 GB unified memory
Configuratie:
> 512 prompt tokens, 128 generatie tokens,
> 5 proeven per configuratie
> Framework: MLX (mlx-lm / mlx-vlm)