如果我告诉你如何在仅传递1-3%的伪梯度的情况下超越DiLoCo,你会怎么想?
Amir Sarfi
Amir Sarfi8月22日 10:13
介绍SparseLoCo:一种通信效率高的LLM预训练方法。 简而言之:我们利用Top-k稀疏化 + 错误反馈与DiLoCo的不频繁外部步骤——仅传递1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N, ArXiv: Github:
1.52K