Приємно, люблю це бачити. Декілька запитань, які у мене в голові: * Яким системним налаштуванням віддали б перевагу розріджений зв'язок перед потоковим Diloco? Що буде, якщо їх поєднати? * Чи є отримання SparseLoCo нижчих втрат іноді артефактом випадкової варіації, чи ми можемо провести фактичну перевірку гіпотез щодо цього результату? * Зворотний зв'язок по помилках є упередженим оператором - чи існують інші упереджені операції, які можуть поліпшити зовнішню оптимізацію?
Amir Sarfi
Amir Sarfi22 серп., 10:13
Представляємо SparseLoCo: комунікативно-ефективний метод для попереднього навчання LLM. ТЛ; Д.Р.: Ми використовуємо розрідження Top-k + зворотний зв'язок по помилках з нечастими зовнішніми кроками DiLoCo - передача лише 1-3% градієнтів з 2-бітною квантуванням - перевершуючи DiLoCo і DeMo. 1/Н, ArXiv: На Github:
1,28K