Dacă ți-aș spune cum să depășești DiLoCo în timp ce comunici doar 1-3% din pseudogradient?
Amir Sarfi
Amir Sarfi22 aug., 10:13
Vă prezentăm SparseLoCo: o metodă eficientă de comunicare pentru pre-instruirea LLM. TL; DR: Folosim feedback-ul de dispersie + eroare Top-k cu pașii externi rari ai DiLoCo - comunicând doar gradiente de 1-3% cu cuantificarea pe 2 biți - depășind DiLoCo și DeMo. 1/N, ArXiv: Github:
1,53K