أضف أعلى k + ردود فعل خطأ وقم بإزالة Nesterov الخارجي من DiloCo (وبالتالي ~ SGD العادي الخارجي). ما زلت مندهشا تماما من أنه يعمل / يمكن أن يحل محل Nesterov :0 عمل رائع!
Amir Sarfi
Amir Sarfi‏22 أغسطس، 10:13
نقدم لكم SparseLoCo: طريقة فعالة للتواصل للتدريب المسبق في كلية العلم. TL. DR: نحن نستفيد من تناثر Top-k + ردود فعل الخطأ مع خطوات DiLoCo الخارجية غير المتكررة - توصيل التدرجات بنسبة 1-3٪ فقط مع التكميم 2 بت - متفوقة على DiLoCo و DeMo. 1 / ن ، أركسيف: جيثوب:
‏‎4.87‏K