Co jeśli powiem ci, jak przebić DiLoCo, komunikując jedynie 1-3% pseudogradientu?
Amir Sarfi
Amir Sarfi22 sie, 10:13
Przedstawiamy SparseLoCo: metodę efektywnej komunikacji do wstępnego szkolenia LLM. TL;DR: Wykorzystujemy sparsifikację Top-k + sprzężenie zwrotne błędu z rzadkimi zewnętrznymi krokami DiLoCo—komunikując tylko 1–3% gradientów z kwantyzacją 2-bitową—przewyższając DiLoCo i DeMo. 1/N, ArXiv: Github:
1,52K