o M5 Max é um brinquedo de $3.500 o único número que importa para a IA local: tokens/sec O que realmente importa para inferência em LLM (em ordem): A largura de banda da memória → determina o tok/s VRAM/memória unificada → determina o tamanho do modelo Compute → mal importa para inferência 25 tokens/seg em 70B parece impressionante até você perceber que a IA agente precisa de 100+ para não parecer quebrada O M5 é um ótimo laptop, mas não é material para servidor