Bello, mi piace vederlo. Alcune domande nella mia mente: * Quali impostazioni di sistema preferirebbero una comunicazione sparsa rispetto allo streaming di Diloco? Cosa succede se li combini? * L'ottenimento di una perdita inferiore da parte di SparseLoCo è a volte un artefatto di variazione casuale, o possiamo fare un vero test di ipotesi su questo risultato? * Il feedback sugli errori è un operatore distorto - ci sono altre operazioni distorte che possono migliorare l'ottimizzazione esterna?
Amir Sarfi
Amir Sarfi22 ago, 10:13
Presentiamo SparseLoCo: un metodo efficiente nella comunicazione per il pre-addestramento di LLM. TL;DR: Sfruttiamo la sparsificazione Top-k + feedback sugli errori con i rari passi esterni di DiLoCo—comunicando solo l'1-3% dei gradienti con quantizzazione a 2 bit—superando DiLoCo e DeMo. 1/N, ArXiv: Github:
1,27K