Dodaj top-k + informację zwrotną o błędach i usuń zewnętrzny Nesterov z DiloCo (tak więc ~zwykły SGD). Wciąż jestem dość zaskoczony, że to działa / może zastąpić Nesterova :0 Świetna robota!
Amir Sarfi
Amir Sarfi22 sie, 10:13
Przedstawiamy SparseLoCo: metodę efektywnej komunikacji do wstępnego szkolenia LLM. TL;DR: Wykorzystujemy sparsifikację Top-k + sprzężenie zwrotne błędu z rzadkimi zewnętrznymi krokami DiLoCo—komunikując tylko 1–3% gradientów z kwantyzacją 2-bitową—przewyższając DiLoCo i DeMo. 1/N, ArXiv: Github:
4,87K