Przedstawiamy SparseLoCo: metodę efektywnej komunikacji do wstępnego szkolenia LLM. TL;DR: Wykorzystujemy sparsifikację Top-k + sprzężenie zwrotne błędu z rzadkimi zewnętrznymi krokami DiLoCo—komunikując tylko 1–3% gradientów z kwantyzacją 2-bitową—przewyższając DiLoCo i DeMo. 1/N, ArXiv: Github:
38,01K