În doar 48 de ore la @RunAnywhereAI am construit MetalRT: învingându-i pe @Apple la propriul lor joc și livrând cel MAI RAPID motor de inferență LLM de pe piață pentru Apple Silicon în acest moment. - Decodare 570 tok/s @liquidai LFM 2.5-1.2B pe 4 biți - Decodare 658 tok/s @Alibaba_Qwen Qwen3-0.6B, 4 biți - 6,6 ms timp până la primul jeton - 1.19× mai rapid decât propriul MLX al Apple (fișiere model identice) - 1,67× mai rapid decât llama.cpp în medie Am zdrobit Apple MLX, llama.cpp, uzu (de la TryMirai) și Ollama în patru modele diferite pe 4 biți, inclusiv LFM2.5-1.2B optimizat pe dispozitiv pe un singur M4 Max. Sunt entuziasmat pentru acesta! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx