很好,看到这个我很高兴。 我心中有一些问题: * 什么系统设置会更倾向于稀疏通信而不是流式Diloco?如果将它们结合在一起会发生什么? * SparseLoCo在某些情况下获得较低损失是否只是随机变化的结果,还是我们可以对这一结果进行实际的假设检验? * 错误反馈是一个有偏操作 - 还有其他可以改善外部优化的有偏操作吗?
Amir Sarfi
Amir Sarfi8月22日 10:13
介绍SparseLoCo:一种通信效率高的LLM预训练方法。 简而言之:我们利用Top-k稀疏化 + 错误反馈与DiLoCo的不频繁外部步骤——仅传递1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N, ArXiv: Github:
1.27K