Voeg top-k + foutfeedback toe en verwijder de buitenste Nesterov van DiloCo (dus ongeveer buiten gewone SGD). Ik ben nog steeds behoorlijk verrast dat het werkt / Nesterov zou kunnen vervangen :0 Geweldig werk!
Amir Sarfi
Amir Sarfi22 aug 2025
Introductie van SparseLoCo: een communicatie-efficiënte methode voor LLM pre-training. TL;DR: We maken gebruik van Top-k sparsificatie + foutfeedback met DiLoCo’s onregelmatige buitenste stappen—communiceren slechts 1–3% van de gradiënten met 2-bits kwantisatie—en presteren beter dan DiLoCo en DeMo. 1/N, ArXiv: Github:
5,02K