Kerja yang sangat keren dengan @amir_sarfi @benjamintherien dan @tplr_ai
Amir Sarfi
Amir Sarfi22 Agu, 10.13
Memperkenalkan SparseLoCo: metode komunikasi yang efisien untuk pra-pelatihan LLM. TL; DR: Kami memanfaatkan sparsifikasi Top-k + umpan balik kesalahan dengan langkah luar DiLoCo yang jarang—hanya mengkomunikasikan gradien 1–3% dengan kuantisasi 2-bit—mengungguli DiLoCo dan DeMo. 1/N, ArXiv: Github:
3,69K