Schön, das zu sehen. Einige Fragen, die mir durch den Kopf gehen: * Welche Systemeinstellungen würden spärliche Kommunikation gegenüber Streaming Diloco bevorzugen? Was passiert, wenn man beides kombiniert? * Ist es manchmal ein Artefakt zufälliger Variation, dass SparseLoCo einen niedrigeren Verlust erzielt, oder können wir tatsächlich Hypothesentests zu diesem Ergebnis durchführen? * Fehlerfeedback ist ein verzerrter Operator - gibt es andere verzerrte Operationen, die die äußere Optimierung verbessern können?
Amir Sarfi
Amir Sarfi22. Aug. 2025
Einführung von SparseLoCo: eine kommunikationseffiziente Methode für das Pre-Training von LLM. TL;DR: Wir nutzen Top-k-Sparsifikation + Fehlerfeedback mit den seltenen äußeren Schritten von DiLoCo – kommunizieren nur 1–3% der Gradienten mit 2-Bit-Quantisierung – und übertreffen DiLoCo und DeMo. 1/N, ArXiv: Github:
1,31K