Ajoutez le top-k + retour d'erreur et retirez Nesterov externe de DiloCo (donc ~SGD plain externe). Je suis encore assez surpris que cela fonctionne / puisse remplacer Nesterov :0 Super travail !
Amir Sarfi
Amir Sarfi22 août, 10:13
Présentation de SparseLoCo : une méthode de pré-entraînement pour LLM efficace en communication. Résumé : Nous exploitons la sparsification Top-k + le retour d'erreur avec les étapes extérieures peu fréquentes de DiLoCo—communiquant seulement 1 à 3 % des gradients avec une quantification en 2 bits—dépassant DiLoCo et DeMo. 1/N, ArXiv : Github :
4,87K