Přidejte top-k + chybovou zpětnou vazbu a odstraňte vnější Nesterov z DiloCo (tedy ~vnější plain SGD). Pořád mě docela překvapuje, že to funguje / mohlo by to nahradit Nesterov :0 Skvělá práce!
Amir Sarfi
Amir Sarfi22. 8. 10:13
Představujeme SparseLoCo: komunikačně efektivní metodu pro předškolení LLM. TL; DR: Využíváme Top-k sparsifikace + zpětnou vazbu o chybě s občasnými vnějšími kroky DiLoCo - komunikuje pouze 1–3% gradienty s 2-bitovou kvantizací - překonáváme DiLoCo a DeMo. 1/N, ArXiv: Github:
4,84K