Que diriez-vous si je vous disais comment surpasser DiLoCo tout en ne communiquant que 1 à 3 % du pseudogradient ?
Amir Sarfi
Amir Sarfi22 août, 10:13
Présentation de SparseLoCo : une méthode de pré-entraînement pour LLM efficace en communication. Résumé : Nous exploitons la sparsification Top-k + le retour d'erreur avec les étapes extérieures peu fréquentes de DiLoCo—communiquant seulement 1 à 3 % des gradients avec une quantification en 2 bits—dépassant DiLoCo et DeMo. 1/N, ArXiv : Github :
1,52K