Wirklich beeindruckende Veröffentlichung von hybriden Mini-Modellen vom Qwen-Team, wie immer!
Die Leute fragen, wie sie sich in Bezug auf Geschwindigkeit, Latenz und Speicher im Vergleich zu @liquidai’s LFMs für die Bereitstellung auf Geräten schlagen?
Hier ist ein schnelles Profiling auf dem Apple M3 Ultra:
> LFM2.5-1.2B ist 52% schneller im Dekodieren als das Qwen3.5-0.8B.
> LFM2-700M ist 71% schneller als Qwen3.5-0.8B beim Dekodieren
> LFM2-2.6B hat die gleiche Geschwindigkeit wie Qwen3.5-2B beim Dekodieren
> LFM2-700M benötigt 46% weniger Spitzen-Speicher als Qwen3.5-0.8B
> LFM2-2.6B benötigt 21% weniger Spitzen-Speicher als Qwen3.5-2B
> lfms prefill mit der gleichen Parametergröße ist im Allgemeinen 12% schneller als Qwen3.5
Wir haben die LFM2-Serie mit unserem Hardware-in-the-Loop-Meta-AI-Designansatz entwickelt, der es uns ermöglicht, die effizienteste Architektur für einen bestimmten Prozessor zu finden, ohne die Qualität zu opfern.
Dieser Test wurde auf dem Apple M3 Ultra mit 512 GB einheitlichem Speicher durchgeführt
Konfiguration:
> 512 Eingabe-Tokens, 128 Generierungs-Tokens,
> 5 Versuche pro Konfiguration
> Framework: MLX (mlx-lm / mlx-vlm)