En solo 48 horas en @RunAnywhereAI construimos MetalRT: superando a @Apple en su propio juego y entregando el MOTOR de inferencia LLM más RÁPIDO del mercado para Apple Silicon en este momento. - 570 tok/s decodificación @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s decodificación @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6.6 ms tiempo hasta el primer token - 1.19× más rápido que el propio MLX de Apple (archivos de modelo idénticos) - 1.67× más rápido que llama.cpp en promedio Destrimos a Apple MLX, llama.cpp, uzu (de TryMirai) y Ollama en cuatro modelos diferentes de 4-bit, incluyendo el LFM2.5-1.2B optimizado para el dispositivo en un solo M4 Max. ¡Emocionado por esto! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx