Mitä jos kertoisin sinulle, kuinka päihittää DiLoCo ja kommunikoida vain 1-3 % pseudogradientista?
Amir Sarfi
Amir Sarfi22.8. klo 10.13
Esittelyssä SparseLoCo: viestintää tehokas menetelmä LLM-esikoulutukseen. TALLIUM; DR: Hyödynnämme Top-k-sparsifikaatiota + virhepalautetta DiLoCon harvinaisilla ulkovaiheilla – kommunikoimalla vain 1–3 %:n gradientteja 2-bittisellä kvantisoinnilla – päihittäen DiLoCon ja DeMon. 1/N, ArXiv: Github:
1,53K