GPT-5.4-Leck: 2M Token-Kontext + persistenter Zustand = KV-Cache-Explosion Das sind die Gedächtnis-Kriege in Echtzeit HBM für Gewichte. SRAM für latenzkritische Inferenz. Optische Verbindungen, um alles zu verbinden Die Bifurkation, über die ich geschrieben habe, ist nicht mehr theoretisch.