很好,看到這個我很高興。 我心中有一些問題: * 什麼系統設置會更傾向於稀疏通信而不是流式Diloco?如果將它們結合在一起會發生什麼? * SparseLoCo在某些情況下獲得較低損失是否只是隨機變化的結果,還是我們可以對這一結果進行實際的假設檢驗? * 錯誤反饋是一個有偏操作 - 還有其他可以改善外部優化的有偏操作嗎?
Amir Sarfi
Amir Sarfi8月22日 10:13
介紹SparseLoCo:一種通信效率高的LLM預訓練方法。 簡而言之:我們利用Top-k稀疏化 + 錯誤反饋與DiLoCo的不頻繁外部步驟——僅傳遞1-3%的梯度,使用2位量化——超越了DiLoCo和DeMo。1/N, ArXiv: Github:
1.26K