Представляємо SparseLoCo: комунікативно-ефективний метод для попереднього навчання LLM. ТЛ; Д.Р.: Ми використовуємо розрідження Top-k + зворотний зв'язок по помилках з нечастими зовнішніми кроками DiLoCo - передача лише 1-3% градієнтів з 2-бітною квантуванням - перевершуючи DiLoCo і DeMo. 1/Н, ArXiv: На Github:
38K