Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Můžeme prolomit paměťovou stěnu pro inferenci LLM pomocí rematerializace KV cache?
🚨 Představujeme technologii XQuant, která využívá nedostatečně využité výpočetní jednotky k odstranění úzkého hrdla paměti pro inferenci LLM!
• 10–12,5násobná úspora paměti oproti FP16
• Téměř nulová ztráta přesnosti
• Překonává nejmodernější kvantizaci🔥 KV
Klíčové poznatky:
1. KV cache = úzké hrdlo → roste lineárně s délkou kontextu + velikostí dávky.
2. Výpočetní >> paměť → GPU nabízejí FLOPy řádově rychlejší, než je šířka pásma paměti.
3. Klíčová myšlenka → KV neukládat, ale pouze ji přepočítat. 🧠
Vzhledem k tomu, že inference LLM je typicky vázána na šířku pásma paměti, výpočetní jednotky jsou často nečinné a nedostatečně využité. Takže můžeme tyto dostupné výpočetní prostředky využít bez jakýchkoli režijních nákladů!
Trendy hardwaru GPU ukazují, že výpočetní schopnosti se škálují mnohem rychleji než šířka pásma paměti. Snížení paměťových operací výměnou za více výpočtů tedy může pomoci urychlit odvozování LLM. KV cache roste lineárně s délkou sekvence a velikostí dávky, což vyvolává většinu paměťových operací během inference LLM. Pokud můžeme obchodovat s dalšími výpočty, abychom obešli načítání a ukládání KV cache, můžeme urychlit inferenci!
XQuant využívá tohoto hardwarového trendu: 🧵 [1/7]
Papír:
Společná práce s: @coleman_hooper1 @mjlee_official z @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang z @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,35K
Top
Hodnocení
Oblíbené