المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل يمكننا كسر جدار الذاكرة لاستدلال LLM عبر إعادة تجسيد ذاكرة التخزين المؤقت KV؟
🚨 نقدم لكم XQuant ، التي تستفيد من وحدات الحوسبة غير المستغلة بشكل كاف للتخلص من عنق الزجاجة في الذاكرة لاستدلال LLM!
• توفير الذاكرة بمعدل 10-12.5 ضعفا مقارنة ب FP16
• فقدان دقة قريب من الصفر
• يتفوق على أحدث تكميم🔥 KV
رؤى رئيسية:
1. ذاكرة التخزين المؤقت KV = → عنق الزجاجة ينمو خطيا مع طول السياق + حجم الدفعة.
2. حساب ذاكرة >> → توفر وحدات معالجة الرسومات FLOPs أوامر FLOPs من حيث الحجم أسرع من عرض النطاق الترددي للذاكرة.
3. الفكرة الرئيسية → لا تخزن KV ، فقط أعد حسابها. 🧠
نظرا لأن استدلال LLM عادة ما يكون مرتبطا بالنطاق الترددي للذاكرة ، فغالبا ما تكون وحدات الحوسبة خاملة وغير مستغلة بشكل كاف. لذلك ، يمكننا استخدام هذا الحساب المتاح دون أي نفقات عامة!
تظهر اتجاهات أجهزة GPU أن قدرات الحوسبة تتوسع بشكل أسرع بكثير من عرض النطاق الترددي للذاكرة. وبالتالي ، فإن تقليل عمليات الذاكرة مقابل مزيد من الحساب يمكن أن يساعد في تسريع استدلال LLM. تنمو ذاكرة التخزين المؤقت KV خطيا مع طول التسلسل وحجم الدفعة ، مما يؤدي إلى تكبد غالبية عمليات الذاكرة أثناء استدلال LLM. إذا تمكنا من تداول حسابات إضافية للتحايل على تحميل وتخزين ذاكرة التخزين المؤقت KV ، فيمكننا تسريع الاستدلال!
يستغل XQuant اتجاه الأجهزة هذا: 🧵 [1/7]
ورق:
عمل مشترك مع: @coleman_hooper1 @mjlee_official من @FuriosaAI @HaochengXiUCB @rish2k1 وونجون كانغ من @FuriosaAI @lucamanolache0 مايكل ماهوني @KurtKeutzer @amir__gholami

32.35K
الأفضل
المُتصدِّرة
التطبيقات المفضلة