Điều gì sẽ xảy ra nếu tôi nói với bạn cách vượt trội hơn DiLoCo chỉ bằng cách giao tiếp 1-3% của pseudogradient?
Amir Sarfi
Amir Sarfi10:13 22 thg 8
Giới thiệu SparseLoCo: một phương pháp hiệu quả trong giao tiếp cho việc tiền huấn luyện LLM. Tóm tắt: Chúng tôi tận dụng sự thưa thớt Top-k + phản hồi lỗi với các bước ngoài không thường xuyên của DiLoCo—chỉ truyền đạt 1–3% gradient với định lượng 2-bit—vượt trội hơn DiLoCo và DeMo. 1/N, ArXiv: Github:
1,52K