På bare 48 timer hos @RunAnywhereAI bygde vi MetalRT: slo @Apple i deres eget spill og leverte den RASKESTE LLM-inferensmotoren på markedet for Apple Silicon akkurat nå. - 570 tok/s dekoding @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s dekoding @Alibaba_Qwen Qwen3-0,6B, 4-bit - 6,6 ms tid til første token - 1.19× raskere enn Apples egen MLX (identiske modellfiler) - 1,67× raskere enn llama.cpp i gjennomsnitt Vi knuste Apple MLX, llama.cpp, uzu (av TryMirai) og Ollama på tvers av fire forskjellige 4-bits modeller, inkludert den on-device optimaliserte LFM2.5-1.2B på en enkelt M4 Max. Gleder meg til denne! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx