Cosa succederebbe se ti dicessi come superare DiLoCo comunicando solo l'1-3% del pseudogradiente?
Amir Sarfi
Amir Sarfi22 ago, 10:13
Presentiamo SparseLoCo: un metodo efficiente nella comunicazione per il pre-addestramento di LLM. TL;DR: Sfruttiamo la sparsificazione Top-k + feedback sugli errori con i rari passi esterni di DiLoCo—comunicando solo l'1-3% dei gradienti con quantizzazione a 2 bit—superando DiLoCo e DeMo. 1/N, ArXiv: Github:
1,52K