Bagaimana jika saya memberi tahu Anda cara mengungguli DiLoCo sambil hanya mengkomunikasikan 1-3% dari pseudogradient?
Amir Sarfi
Amir Sarfi22 Agu, 10.13
Memperkenalkan SparseLoCo: metode komunikasi yang efisien untuk pra-pelatihan LLM. TL; DR: Kami memanfaatkan sparsifikasi Top-k + umpan balik kesalahan dengan langkah luar DiLoCo yang jarang—hanya mengkomunikasikan gradien 1–3% dengan kuantisasi 2-bit—mengungguli DiLoCo dan DeMo. 1/N, ArXiv: Github:
1,52K