Додаємо top-k + зворотний зв'язок помилок і видаляємо зовнішні Нестерова з DiloCo (таким чином ~зовнішнє просте SGD). Я досі дуже здивований, що він працює/міг би замінити Нестерова :0 Класна робота!
Amir Sarfi
Amir Sarfi22 серп., 10:13
Представляємо SparseLoCo: комунікативно-ефективний метод для попереднього навчання LLM. ТЛ; Д.Р.: Ми використовуємо розрідження Top-k + зворотний зв'язок по помилках з нечастими зовнішніми кроками DiLoCo - передача лише 1-3% градієнтів з 2-бітною квантуванням - перевершуючи DiLoCo і DeMo. 1/Н, ArXiv: На Github:
4,84K