نقدم لكم SparseLoCo: طريقة فعالة للتواصل للتدريب المسبق في كلية العلم. TL. DR: نحن نستفيد من تناثر Top-k + ردود فعل الخطأ مع خطوات DiLoCo الخارجية غير المتكررة - توصيل التدرجات بنسبة 1-3٪ فقط مع التكميم 2 بت - متفوقة على DiLoCo و DeMo. 1 / ن ، أركسيف: جيثوب:
‏‎38.01‏K