热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
添加 top-k + 错误反馈,并从 DiloCo 中移除外部 Nesterov(因此大约是外部普通 SGD)。
我仍然很惊讶它能工作/可以替代 Nesterov :0
很棒的工作!

8月22日 10:13
介绍SparseLoCo:一种通信效率高的LLM预训练方法。
简而言之:我们利用Top-k稀疏化 + 错误反馈与DiLoCo的不频繁外部步骤——仅传递1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N,
ArXiv:
Github:

4.87K
热门
排行
收藏