Công việc rất tuyệt với @amir_sarfi @benjamintherien và @tplr_ai
Amir Sarfi
Amir Sarfi10:13 22 thg 8
Giới thiệu SparseLoCo: một phương pháp hiệu quả trong giao tiếp cho việc tiền huấn luyện LLM. Tóm tắt: Chúng tôi tận dụng sự thưa thớt Top-k + phản hồi lỗi với các bước ngoài không thường xuyên của DiLoCo—chỉ truyền đạt 1–3% gradient với định lượng 2-bit—vượt trội hơn DiLoCo và DeMo. 1/N, ArXiv: Github:
3,7K