Hanya dalam 48 jam di @RunAnywhereAI kami membangun MetalRT: mengalahkan @Apple dalam permainan mereka sendiri dan menghadirkan mesin inferensi LLM TERCEPAT di pasaran untuk Apple Silicon saat ini. - 570 tok/s dekode @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s dekode @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6,6 ms waktu-ke-token pertama - 1,19× lebih cepat dari MLX milik Apple (file model identik) - 1,67× lebih cepat dari llama.cpp rata-rata Kami menghancurkan Apple MLX, llama.cpp, uzu (oleh TryMirai), dan Ollama di empat model 4-bit yang berbeda, termasuk LFM2.5-1.2B yang dioptimalkan pada perangkat pada satu M4 Max. Bersemangat untuk yang satu ini! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx