E se eu te dissesse como superar o DiLoCo enquanto comunicas apenas 1-3% do pseudogradiente?
Amir Sarfi
Amir Sarfi22/08, 10:13
Apresentando o SparseLoCo: um método eficiente em comunicação para pré-treinamento de LLM. Resumo: Aproveitamos a esparsificação Top-k + feedback de erro com os passos externos infrequentes do DiLoCo—comunicando apenas 1–3% dos gradientes com quantização de 2 bits—superando o DiLoCo e o DeMo. 1/N, ArXiv: Github:
1,53K