Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1. Hva fikk disse gutta til å tro at dette var papirverdig
2. Jeg antar at mengden bytter som vil skje med dette er forferdelig

20. aug., 14:07
Kan vi bryte minneveggen for LLM-inferens via KV-cache-rematerialisering?
🚨 Vi introduserer XQuant, som utnytter underutnyttede databehandlingsenheter for å eliminere minneflaskehalsen for LLM-slutning!
• 10–12,5x minnebesparelser sammenlignet med FP16
• Nesten null tap av nøyaktighet
• Slår toppmoderne KV-kvantisering🔥
Viktig innsikt:
1. KV-cache = flaskehals → vokser lineært med kontekstlengde + batchstørrelse.
2. Beregn >> minne → GPUer tilbyr FLOP-er størrelsesordener raskere enn minnebåndbredde.
3. Nøkkelidé → ikke lagre KV, bare beregne det på nytt. 🧠
Siden LLM-slutning vanligvis er bundet til minnebåndbredde, er databehandlingsenheter ofte inaktive og underutnyttede. Så vi kan bruke denne tilgjengelige databehandlingen uten overhead!
GPU-maskinvaretrender viser at databehandlingsfunksjoner skaleres mye raskere enn minnebåndbredde. Dermed kan reduksjon av minneoperasjoner i bytte mot mer beregning bidra til å øke hastigheten på LLM-slutningen. KV-cachen vokser lineært med sekvenslengde og batchstørrelse, og pådrar seg de fleste minneoperasjoner under LLM-slutning. Hvis vi kan handle ytterligere beregninger for å omgå lasting og lagring av KV-cachen, kan vi akselerere slutningen!
XQuant utnytter denne maskinvaretrenden: 🧵 [1/7]
Papir:
Samarbeid med: @coleman_hooper1 @mjlee_official fra @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang fra @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

841
Topp
Rangering
Favoritter