热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
如果我告诉你如何在仅传递1-3%的伪梯度的情况下超越DiLoCo,你会怎么想?

8月22日 10:13
介绍SparseLoCo:一种通信效率高的LLM预训练方法。
简而言之:我们利用Top-k稀疏化 + 错误反馈与DiLoCo的不频繁外部步骤——仅传递1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N,
ArXiv:
Github:

1.52K
热门
排行
收藏