الحوسبة الاستدلالية على وشك أن تصبح عبئا حسابيا ضخما بحلول نهاية هذا العقد. أعتقد أن الأمر سيكون أكبر بكثير من التدريب (خاصة إذا أخذت في الاعتبار تطبيقات التعلم الواقعي / احتياجات الاستنتاج للتدريب). ولا يزال هناك مجال مفتوح من حيث الأجهزة والمنصات والنماذج. ومن الواضح أيضا أن الناس مستعدون لدفع مبلغ إضافي مقابل تقليل فترة التأخير. من ناحية الأجهزة، هناك عدة اتجاهات مثيرة للاهتمام يجب متابعتها: - إعدادات بأسلوب SRAM تبدو واعدة (GPT Spark على Cerebras، استحواذ Nvidia على Groq) - الأنظمة المفصلة (التعبئة المسبقة على جهاز / معالج واحد، والتوليد على جهاز آخر) ربما تكون منطقية جدا. الخصائص الحاسوبية للتعبئة المسبقة مقابل فك الترميز مختلفة جدا، والتخصص على مستوى الأجهزة سيحقق مكاسب في الكفاءة - لا أستبعد أيضا التقنيات الأكثر غرابة مثل شريحة Taalas / الحوسبة القريبة من الذاكرة / وغيرها. بينما لا تزال بعيدة جدا عن النشر على نطاق واسع، قد يكون الضغط الاقتصادي لتحقيق مكاسب الكفاءة محفزا من ناحية الخوارزمية / العمارة: - تقريبا كل نموذج رئيسي للأوزان المفتوحة يحتوي على تحسين واحد على الأقل مما يجعله أسرع في الاستدلال. سواء كان ذلك في MoE، أو SSM (أو أي نوع هجين آخر)، أو نافذة منزلقة أو انتباه متناثر. هناك اختلافات أكثر هنا مما كانت عليه قبل عام. وسيكون من المثير للاهتمام أن نرى أين سنلتقي معا. - هل ستقوم نماذج الانتشار بتوحيد تقسيم التعبئة المسبقة / فك الترميز؟ - لا يزال يعتقد أن هناك مكاسب كبيرة يمكن تحقيقها في المزيد من التصميم المشترك بين النموذج والأجهزة وعبء العمل ولا أعتقد أيضا أننا سنجد حلا واحدا يناسب الجميع في المستقبل: - قد تبدو النماذج السحابية مختلفة جدا عن النماذج المحسنة للحافة - قد تكون النماذج مصممة بشكل مشترك بشكل متزايد للأجهزة التي تنشر عليها - سيكون هناك على الأقل مقبض واحد يعوض بين زمن الاستجابة وكفاءة الطاقة / التكلفة.