Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy możemy przełamać barierę pamięci dla wnioskowania LLM poprzez rematerializację pamięci podręcznej KV?
🚨 Przedstawiamy XQuant, który wykorzystuje niedostatecznie wykorzystywane jednostki obliczeniowe, aby wyeliminować wąskie gardło pamięci dla wnioskowania LLM!
• 10–12,5x oszczędności pamięci w porównaniu do FP16
• Prawie zerowa utrata dokładności
• Przewyższa najnowocześniejszą kwantyzację KV🔥
Kluczowe spostrzeżenia:
1. Pamięć podręczna KV = wąskie gardło → rośnie liniowo z długością kontekstu + rozmiarem partii.
2. Obliczenia >> pamięć → GPU oferują FLOPy w porównaniu do przepustowości pamięci.
3. Kluczowa idea → nie przechowuj KV, po prostu go przelicz. 🧠
Ponieważ wnioskowanie LLM jest zazwyczaj ograniczone przepustowością pamięci, jednostki obliczeniowe są często bezczynne i niedostatecznie wykorzystywane. Możemy więc wykorzystać te dostępne obliczenia bez żadnych dodatkowych kosztów!
Trendy w sprzęcie GPU pokazują, że możliwości obliczeniowe rozwijają się znacznie szybciej niż przepustowość pamięci. Dlatego zmniejszenie operacji pamięci w zamian za więcej obliczeń może pomóc przyspieszyć wnioskowanie LLM. Pamięć podręczna KV rośnie liniowo z długością sekwencji i rozmiarem partii, generując większość operacji pamięci podczas wnioskowania LLM. Jeśli możemy wymienić dodatkowe obliczenia, aby obejść ładowanie i przechowywanie pamięci podręcznej KV, możemy przyspieszyć wnioskowanie!
XQuant wykorzystuje ten trend sprzętowy: 🧵 [1/7]
Artykuł:
Wspólna praca z: @coleman_hooper1 @mjlee_official z @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang z @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,35K
Najlepsze
Ranking
Ulubione