Kan vi bryte minneveggen for LLM-inferens via KV-cache-rematerialisering? 🚨 Vi introduserer XQuant, som utnytter underutnyttede databehandlingsenheter for å eliminere minneflaskehalsen for LLM-slutning! • 10–12,5x minnebesparelser sammenlignet med FP16 • Nesten null tap av nøyaktighet • Slår toppmoderne KV-kvantisering🔥 Viktig innsikt: 1. KV-cache = flaskehals → vokser lineært med kontekstlengde + batchstørrelse. 2. Beregn >> minne → GPUer tilbyr FLOP-er størrelsesordener raskere enn minnebåndbredde. 3. Nøkkelidé → ikke lagre KV, bare beregne det på nytt. 🧠 Siden LLM-slutning vanligvis er bundet til minnebåndbredde, er databehandlingsenheter ofte inaktive og underutnyttede. Så vi kan bruke denne tilgjengelige databehandlingen uten overhead! GPU-maskinvaretrender viser at databehandlingsfunksjoner skaleres mye raskere enn minnebåndbredde. Dermed kan reduksjon av minneoperasjoner i bytte mot mer beregning bidra til å øke hastigheten på LLM-slutningen. KV-cachen vokser lineært med sekvenslengde og batchstørrelse, og pådrar seg de fleste minneoperasjoner under LLM-slutning. Hvis vi kan handle ytterligere beregninger for å omgå lasting og lagring av KV-cachen, kan vi akselerere slutningen! XQuant utnytter denne maskinvaretrenden: 🧵 [1/7] Papir: Samarbeid med: @coleman_hooper1 @mjlee_official fra @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang fra @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32,34K