Za pouhých 48 hodin v @RunAnywhereAI jsme vytvořili MetalRT: porazili jsme @Apple v jejich vlastní hře a dodali NEJRYCHLEJŠÍ LLM inferenční engine na trhu pro Apple Silicon právě teď. - 570 tok/s dekódování @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s dekódování @Alibaba_Qwen Qwen3-0.6B, 4-bitový - 6.6 ms Čas do prvního tokenu - 1.19× rychlejší než Apple vlastní MLX (identické modelové soubory) - 1,67× v průměru rychlejší než llama.cpp Rozdrtili jsme Apple MLX, llama.cpp, Uzu (od TryMirai) a Ollama ve čtyřech různých 4bitových modelech, včetně optimalizovaného LFM2.5-1.2B na jednom M4 Max. Těším se na tohle! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx