Bagus, senang melihatnya. Beberapa pertanyaan di benak saya: * Pengaturan sistem apa yang lebih memilih komunikasi jarang daripada streaming Diloco? Apa yang terjadi jika Anda menggabungkannya? * Apakah SparseLoCo memperoleh kerugian yang lebih rendah terkadang merupakan artefak variasi acak, atau dapatkah kita melakukan pengujian hipotesis aktual pada hasil ini? * Umpan balik kesalahan adalah operator yang bias - apakah ada operasi bias lain yang dapat meningkatkan pengoptimalan luar?
Amir Sarfi
Amir Sarfi22 Agu, 10.13
Memperkenalkan SparseLoCo: metode komunikasi yang efisien untuk pra-pelatihan LLM. TL; DR: Kami memanfaatkan sparsifikasi Top-k + umpan balik kesalahan dengan langkah luar DiLoCo yang jarang—hanya mengkomunikasikan gradien 1–3% dengan kuantisasi 2-bit—mengungguli DiLoCo dan DeMo. 1/N, ArXiv: Github:
1,27K