Czy możemy przełamać barierę pamięci dla wnioskowania LLM poprzez rematerializację pamięci podręcznej KV? 🚨 Przedstawiamy XQuant, który wykorzystuje niedostatecznie wykorzystywane jednostki obliczeniowe, aby wyeliminować wąskie gardło pamięci dla wnioskowania LLM! • 10–12,5x oszczędności pamięci w porównaniu do FP16 • Prawie zerowa utrata dokładności • Przewyższa najnowocześniejszą kwantyzację KV🔥 Kluczowe spostrzeżenia: 1. Pamięć podręczna KV = wąskie gardło → rośnie liniowo z długością kontekstu + rozmiarem partii. 2. Obliczenia >> pamięć → GPU oferują FLOPy w porównaniu do przepustowości pamięci. 3. Kluczowa idea → nie przechowuj KV, po prostu go przelicz. 🧠 Ponieważ wnioskowanie LLM jest zazwyczaj ograniczone przepustowością pamięci, jednostki obliczeniowe są często bezczynne i niedostatecznie wykorzystywane. Możemy więc wykorzystać te dostępne obliczenia bez żadnych dodatkowych kosztów! Trendy w sprzęcie GPU pokazują, że możliwości obliczeniowe rozwijają się znacznie szybciej niż przepustowość pamięci. Dlatego zmniejszenie operacji pamięci w zamian za więcej obliczeń może pomóc przyspieszyć wnioskowanie LLM. Pamięć podręczna KV rośnie liniowo z długością sekwencji i rozmiarem partii, generując większość operacji pamięci podczas wnioskowania LLM. Jeśli możemy wymienić dodatkowe obliczenia, aby obejść ładowanie i przechowywanie pamięci podręcznej KV, możemy przyspieszyć wnioskowanie! XQuant wykorzystuje ten trend sprzętowy: 🧵 [1/7] Artykuł: Wspólna praca z: @coleman_hooper1 @mjlee_official z @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang z @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32,35K