Was wäre, wenn ich dir sagen würde, wie du DiLoCo übertreffen kannst, während du nur 1-3 % des Pseudogradienten kommunizierst?
Amir Sarfi
Amir Sarfi22. Aug., 10:13
Einführung von SparseLoCo: eine kommunikationseffiziente Methode für das Pre-Training von LLM. TL;DR: Wir nutzen Top-k-Sparsifikation + Fehlerfeedback mit den seltenen äußeren Schritten von DiLoCo – kommunizieren nur 1–3% der Gradienten mit 2-Bit-Quantisierung – und übertreffen DiLoCo und DeMo. 1/N, ArXiv: Github:
1,51K