Esittelyssä SparseLoCo: viestintää tehokas menetelmä LLM-esikoulutukseen. TALLIUM; DR: Hyödynnämme Top-k-sparsifikaatiota + virhepalautetta DiLoCon harvinaisilla ulkovaiheilla – kommunikoimalla vain 1–3 %:n gradientteja 2-bittisellä kvantisoinnilla – päihittäen DiLoCon ja DeMon. 1/N, ArXiv: Github:
38,11K