一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

添加 top-k + 错误反馈，并从 DiloCo 中移除外部 Nesterov（因此大约是外部普通 SGD）。我仍然很惊讶它能工作/可以替代 Nesterov :0 很棒的工作！

4.87K