Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Können wir die Speichergrenze für LLM-Inferenz durch die Rematerialisierung des KV-Caches durchbrechen?
🚨 Einführung von XQuant, das ungenutzte Recheneinheiten nutzt, um den Speicherengpass für LLM-Inferenz zu beseitigen!
• 10–12,5x Speicherersparnis im Vergleich zu FP16
• Nahezu kein Genauigkeitsverlust
• Übertrifft den Stand der Technik bei KV-Quantisierung🔥
Wichtige Erkenntnisse:
1. KV-Cache = Engpass → wächst linear mit der Kontextlänge + Batch-Größe.
2. Rechenleistung >> Speicher → GPUs bieten FLOPs, die um Größenordnungen schneller sind als die Speicherbandbreite.
3. Schlüsselidee → speichere KV nicht, berechne es einfach neu. 🧠
Da die LLM-Inferenz typischerweise speicherbandbreitengebunden ist, sind Recheneinheiten oft untätig und ungenutzt. Daher können wir diese verfügbare Rechenleistung ohne zusätzlichen Aufwand nutzen!
Die Trends in der GPU-Hardware zeigen, dass die Rechenfähigkeiten viel schneller skalieren als die Speicherbandbreite. Daher kann die Reduzierung von Speicheroperationen im Austausch für mehr Berechnung dazu beitragen, die LLM-Inferenz zu beschleunigen. Der KV-Cache wächst linear mit der Sequenzlänge und der Batch-Größe und verursacht während der LLM-Inferenz die Mehrheit der Speicheroperationen. Wenn wir zusätzliche Berechnungen eintauschen können, um das Laden und Speichern des KV-Caches zu umgehen, können wir die Inferenz beschleunigen!
XQuant nutzt diesen Hardware-Trend aus: 🧵 [1/7]
Papier:
Gemeinsame Arbeit mit: @coleman_hooper1 @mjlee_official von @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang von @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,35K
Top
Ranking
Favoriten