分布式的14天,第8天! 认识一下来自@Google的Zach Charles (@MatharyCharles)! Zach专注于与DiLoCo相关的研究,并发表了关于DiLoCo的缩放法则以及流式DiLoCo的论文,这显著减少了LLM训练期间的峰值带宽。 Zach和@samsja19将联手对抗DiLoCo,Zach将专注于DiLoCo的理论及其最新改进!
4.4K