Aggiungi top-k + feedback sugli errori e rimuovi Nesterov esterno da DiloCo (quindi ~SGD semplice esterno). Sono ancora abbastanza sorpreso che funzioni / potrebbe sostituire Nesterov :0 Ottimo lavoro!
Amir Sarfi
Amir Sarfi22 ago, 10:13
Presentiamo SparseLoCo: un metodo efficiente nella comunicazione per il pre-addestramento di LLM. TL;DR: Sfruttiamo la sparsificazione Top-k + feedback sugli errori con i rari passi esterni di DiLoCo—comunicando solo l'1-3% dei gradienti con quantizzazione a 2 bit—superando DiLoCo e DeMo. 1/N, ArXiv: Github:
4,84K