In nur 48 Stunden haben wir bei @RunAnywhereAI MetalRT entwickelt: Wir haben @Apple in ihrem eigenen Spiel geschlagen und die SCHNELLSTE LLM-Inferenz-Engine auf dem Markt für Apple Silicon geliefert. - 570 tok/s Dekodierung @liquidai LFM 2.5-1.2B 4-Bit - 658 tok/s Dekodierung @Alibaba_Qwen Qwen3-0.6B, 4-Bit - 6,6 ms Zeit bis zum ersten Token - 1,19× schneller als Apples eigenes MLX (identische Modell-Dateien) - 1,67× schneller als llama.cpp im Durchschnitt Wir haben Apple MLX, llama.cpp, uzu (von TryMirai) und Ollama über vier verschiedene 4-Bit-Modelle hinweg geschlagen, einschließlich des auf dem Gerät optimierten LFM2.5-1.2B auf einem einzelnen M4 Max. Ich bin auf dieses hier gespannt! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx