Всього за 48 годин у @RunAnywhereAI ми створили MetalRT: обігравши @Apple у їхній власній грі та забезпечивши НАЙШВИДШИЙ LLM-інференційний рушій на ринку Apple Silicon на сьогоднішній момент. - 570 ток/с декодування @liquidai LFM 2.5-1.2B 4-біт - 658 ток/с декодування @Alibaba_Qwen Qwen3-0.6B, 4-бітний - 6,6 мс час до першого токена - 1.19× швидше за власний MLX від Apple (ідентичні файли моделей) - 1,67× швидше за llama.cpp в середньому Ми розгромили Apple MLX, llama.cpp, uzu (від TryMirai) та Ollama на чотирьох різних 4-бітних моделях, включаючи оптимізований LFM2.5-1.2B на одному M4 Max. З нетерпінням чекаю на цю гру! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx