Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bagus, senang melihatnya.
Beberapa pertanyaan di benak saya:
* Pengaturan sistem apa yang lebih memilih komunikasi jarang daripada streaming Diloco? Apa yang terjadi jika Anda menggabungkannya?
* Apakah SparseLoCo memperoleh kerugian yang lebih rendah terkadang merupakan artefak variasi acak, atau dapatkah kita melakukan pengujian hipotesis aktual pada hasil ini?
* Umpan balik kesalahan adalah operator yang bias - apakah ada operasi bias lain yang dapat meningkatkan pengoptimalan luar?

22 Agu, 10.13
Memperkenalkan SparseLoCo: metode komunikasi yang efisien untuk pra-pelatihan LLM.
TL; DR: Kami memanfaatkan sparsifikasi Top-k + umpan balik kesalahan dengan langkah luar DiLoCo yang jarang—hanya mengkomunikasikan gradien 1–3% dengan kuantisasi 2-bit—mengungguli DiLoCo dan DeMo. 1/N,
ArXiv:
Github:

1,27K
Teratas
Peringkat
Favorit