Trabalho muito legal com @amir_sarfi @benjamintherien e @tplr_ai
Amir Sarfi
Amir Sarfi22 de ago., 10:13
Apresentando o SparseLoCo: um método eficiente de comunicação para pré-treinamento de LLM. TL; DR: Aproveitamos a esparsificação Top-k + feedback de erro com as etapas externas pouco frequentes do DiLoCo - comunicando apenas gradientes de 1 a 3% com quantização de 2 bits - superando DiLoCo e DeMo. 1/N, ArXiv: Github:
3,68K