Bardzo fajna praca z @amir_sarfi, @benjamintherien i @tplr_ai
Amir Sarfi
Amir Sarfi22 sie, 10:13
Przedstawiamy SparseLoCo: metodę efektywnej komunikacji do wstępnego szkolenia LLM. TL;DR: Wykorzystujemy sparsifikację Top-k + sprzężenie zwrotne błędu z rzadkimi zewnętrznymi krokami DiLoCo—komunikując tylko 1–3% gradientów z kwantyzacją 2-bitową—przewyższając DiLoCo i DeMo. 1/N, ArXiv: Github:
3,69K