Memperkenalkan SparseLoCo: metode komunikasi yang efisien untuk pra-pelatihan LLM. TL; DR: Kami memanfaatkan sparsifikasi Top-k + umpan balik kesalahan dengan langkah luar DiLoCo yang jarang—hanya mengkomunikasikan gradien 1–3% dengan kuantisasi 2-bit—mengungguli DiLoCo dan DeMo. 1/N, ArXiv: Github:
38,01K