Trabalho muito legal com @amir_sarfi @benjamintherien e @tplr_ai
Amir Sarfi
Amir Sarfi22/08, 10:13
Apresentando o SparseLoCo: um método eficiente em comunicação para pré-treinamento de LLM. Resumo: Aproveitamos a esparsificação Top-k + feedback de erro com os passos externos infrequentes do DiLoCo—comunicando apenas 1–3% dos gradientes com quantização de 2 bits—superando o DiLoCo e o DeMo. 1/N, ArXiv: Github:
3,71K