热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
很好,看到这个我很高兴。
我心中有一些问题:
* 什么系统设置会更倾向于稀疏通信而不是流式Diloco?如果将它们结合在一起会发生什么?
* SparseLoCo在某些情况下获得较低损失是否只是随机变化的结果,还是我们可以对这一结果进行实际的假设检验?
* 错误反馈是一个有偏操作 - 还有其他可以改善外部优化的有偏操作吗?

8月22日 10:13
介绍SparseLoCo:一种通信效率高的LLM预训练方法。
简而言之:我们利用Top-k稀疏化 + 错误反馈与DiLoCo的不频繁外部步骤——仅传递1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N,
ArXiv:
Github:

1.27K
热门
排行
收藏