@RunAnywhereAIでわずか48時間でMetalRTを構築しました。@Appleのゲームを打ち負かし、現在Apple Silicon向けに市場に出ている最速のLLM推論エンジンを届けました。 - 570 tok/s デコード @liquidai LFM 2.5-1.2B 4ビット - 658 tok/s @Alibaba_Qwen Qwen3-0.6B、4ビット デコード - 6.6 ms 初回トークン使用時間 - 1.19× AppleのMLXより高速(同一モデルファイル) - 1.67× 平均でllama.cppより速い 私たちはApple MLX、llama.cpp、uzu(TryMirai製)、Ollamaを4つの異なる4ビットモデルで圧倒しました。その中には、デバイス最適化されたLFM2.5-1.2Bも1台のM4 Maxで搭載されています。 これは楽しみです! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx