Giới thiệu SparseLoCo: một phương pháp hiệu quả trong giao tiếp cho việc tiền huấn luyện LLM. Tóm tắt: Chúng tôi tận dụng sự thưa thớt Top-k + phản hồi lỗi với các bước ngoài không thường xuyên của DiLoCo—chỉ truyền đạt 1–3% gradient với định lượng 2-bit—vượt trội hơn DiLoCo và DeMo. 1/N, ArXiv: Github:
38,04K