Fuite de GPT-5.4 : contexte de 2M de tokens + état persistant = explosion du cache KV C'est la guerre de la mémoire en temps réel HBM pour les poids. SRAM pour l'inférence critique en latence. Interconnexions optiques pour tout lier La bifurcation dont j'ai parlé n'est plus théorique.