هل يمكننا كسر جدار الذاكرة لاستدلال LLM عبر إعادة تجسيد ذاكرة التخزين المؤقت KV؟ 🚨 نقدم لكم XQuant ، التي تستفيد من وحدات الحوسبة غير المستغلة بشكل كاف للتخلص من عنق الزجاجة في الذاكرة لاستدلال LLM! • توفير الذاكرة بمعدل 10-12.5 ضعفا مقارنة ب FP16 • فقدان دقة قريب من الصفر • يتفوق على أحدث تكميم🔥 KV رؤى رئيسية: 1. ذاكرة التخزين المؤقت KV = → عنق الزجاجة ينمو خطيا مع طول السياق + حجم الدفعة. 2. حساب ذاكرة >> → توفر وحدات معالجة الرسومات FLOPs أوامر FLOPs من حيث الحجم أسرع من عرض النطاق الترددي للذاكرة. 3. الفكرة الرئيسية → لا تخزن KV ، فقط أعد حسابها. 🧠 نظرا لأن استدلال LLM عادة ما يكون مرتبطا بالنطاق الترددي للذاكرة ، فغالبا ما تكون وحدات الحوسبة خاملة وغير مستغلة بشكل كاف. لذلك ، يمكننا استخدام هذا الحساب المتاح دون أي نفقات عامة! تظهر اتجاهات أجهزة GPU أن قدرات الحوسبة تتوسع بشكل أسرع بكثير من عرض النطاق الترددي للذاكرة. وبالتالي ، فإن تقليل عمليات الذاكرة مقابل مزيد من الحساب يمكن أن يساعد في تسريع استدلال LLM. تنمو ذاكرة التخزين المؤقت KV خطيا مع طول التسلسل وحجم الدفعة ، مما يؤدي إلى تكبد غالبية عمليات الذاكرة أثناء استدلال LLM. إذا تمكنا من تداول حسابات إضافية للتحايل على تحميل وتخزين ذاكرة التخزين المؤقت KV ، فيمكننا تسريع الاستدلال! يستغل XQuant اتجاه الأجهزة هذا: 🧵 [1/7] ورق: عمل مشترك مع: @coleman_hooper1 @mjlee_official من @FuriosaAI @HaochengXiUCB @rish2k1 وونجون كانغ من @FuriosaAI @lucamanolache0 مايكل ماهوني @KurtKeutzer @amir__gholami
‏‎32.35‏K