分布式的14天,第8天! 認識一下來自@Google的Zach Charles (@MatharyCharles)! Zach專注於與DiLoCo相關的研究,並發表了關於DiLoCo的縮放法則以及流式DiLoCo的論文,這顯著減少了LLM訓練期間的峰值帶寬。 Zach和@samsja19將聯手對抗DiLoCo,Zach將專注於DiLoCo的理論及其最新改進!
4.41K