Filtración de GPT-5.4: 2M de contexto de tokens + estado persistente = explosión de caché KV Esta es la Guerra de la Memoria en tiempo real HBM para pesos. SRAM para inferencia crítica en latencia. Interconexiones ópticas para unirlo todo La bifurcación de la que he estado escribiendo ya no es teórica.