Em apenas 48 horas em @RunAnywhereAI construímos o MetalRT: superando @Apple em seu próprio jogo e entregando o motor de inferência LLM mais RÁPIDO do mercado para Apple Silicon atualmente. - Decodificação de 570 tok/s @liquidai LFM 2.5-1.2B 4-bit - Decodificação de 658 tok/s @Alibaba_Qwen Qwen3-0.6B, 4 bits - 6,6 ms de tempo até o primeiro token - 1.19× mais rápido que o próprio MLX da Apple (arquivos de modelo idênticos) - 1,67× mais rápido que llama.cpp em média Arrasamos com Apple MLX, llama.cpp, uzu (da TryMirai) e Ollama em quatro modelos diferentes de 4 bits, incluindo o LFM2.5-1.2B otimizado para o dispositivo em um único M4 Max. Estou animado para esse! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx