如果我告訴你如何在僅傳遞1-3%的偽梯度的情況下超越DiLoCo,你會怎麼想?
Amir Sarfi
Amir Sarfi8月22日 10:13
介紹SparseLoCo:一種通信效率高的LLM預訓練方法。 簡而言之:我們利用Top-k稀疏化 + 錯誤反饋與DiLoCo的不頻繁外部步驟——僅傳遞1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N, ArXiv: Github:
1.51K