عمل رائع جدا مع @amir_sarfi @benjamintherien و @tplr_ai
Amir Sarfi
Amir Sarfi‏22 أغسطس، 10:13
نقدم لكم SparseLoCo: طريقة فعالة للتواصل للتدريب المسبق في كلية العلم. TL. DR: نحن نستفيد من تناثر Top-k + ردود فعل الخطأ مع خطوات DiLoCo الخارجية غير المتكررة - توصيل التدرجات بنسبة 1-3٪ فقط مع التكميم 2 بت - متفوقة على DiLoCo و DeMo. 1 / ن ، أركسيف: جيثوب:
‏‎3.69‏K