le M5 Max est un jouet à 3 500 $ le seul chiffre qui compte pour l'IA locale : tokens/sec ce qui compte réellement pour l'inférence LLM (dans l'ordre) : bande passante mémoire → détermine tok/s VRAM/mémoire unifiée → détermine la taille du modèle calcul → a à peine d'importance pour l'inférence 25 tokens/sec sur 70B semble impressionnant jusqu'à ce que vous réalisiez que l'IA agentique a besoin de 100+ pour ne pas sembler cassée le M5 est un excellent ordinateur portable, mais pas adapté aux serveurs