Présentation de SparseLoCo : une méthode de pré-entraînement pour LLM efficace en communication. Résumé : Nous exploitons la sparsification Top-k + le retour d'erreur avec les étapes extérieures peu fréquentes de DiLoCo—communiquant seulement 1 à 3 % des gradients avec une quantification en 2 bits—dépassant DiLoCo et DeMo. 1/N, ArXiv : Github :
38,01K