ماذا لو أخبرتك كيف تتفوق على DiLoCo أثناء توصيل 1-3٪ فقط من الكاذب؟
Amir Sarfi
Amir Sarfi‏22 أغسطس، 10:13
نقدم لكم SparseLoCo: طريقة فعالة للتواصل للتدريب المسبق في كلية العلم. TL. DR: نحن نستفيد من تناثر Top-k + ردود فعل الخطأ مع خطوات DiLoCo الخارجية غير المتكررة - توصيل التدرجات بنسبة 1-3٪ فقط مع التكميم 2 بت - متفوقة على DiLoCo و DeMo. 1 / ن ، أركسيف: جيثوب:
‏‎1.52‏K