Một mô hình 24 tỷ tham số vừa chạy trên một chiếc laptop và chọn đúng công cụ trong chưa đầy nửa giây. Câu chuyện thực sự là các tác nhân gọi công cụ cuối cùng đã trở nên đủ nhanh để cảm thấy như phần mềm. Liquid đã xây dựng LFM2-24B-A2B bằng cách sử dụng kiến trúc lai kết hợp các khối tích chập với sự chú ý theo nhóm theo tỷ lệ 1:3. Chỉ có 2,3 tỷ tham số được kích hoạt cho mỗi token, mặc dù mô hình đầy đủ chứa 24 tỷ. Mô hình kích hoạt thưa thớt đó là lý do tại sao nó vừa vặn trong 14,5 GB bộ nhớ và phân phối công cụ trong 385 mili giây trên một M4 Max. Kiến trúc được thiết kế thông qua tìm kiếm phần cứng trong vòng lặp, có nghĩa là họ đã tối ưu hóa cấu trúc mô hình bằng cách thử nghiệm trực tiếp trên các chip mà nó sẽ chạy. Không có lớp dịch vụ đám mây. Không có vòng API. Mô hình, các công cụ và dữ liệu của bạn đều ở trên máy. Điều này mở khóa ba điều mà trước đây không khả thi: 1. Các ngành công nghiệp được quản lý có thể chạy các tác nhân trên laptop của nhân viên mà không để dữ liệu rời khỏi thiết bị. 2. Các nhà phát triển có thể tạo mẫu quy trình làm việc đa công cụ mà không cần quản lý khóa API hoặc giới hạn tỷ lệ. 3. Các đội ngũ an ninh nhận được đầy đủ các dấu vết kiểm toán mà không có các nhà cung cấp phụ trong vòng lặp. Mô hình đạt 80% độ chính xác trong việc chọn công cụ một bước trên 67 công cụ trải dài qua 13 máy chủ MCP. Nếu hiệu suất này giữ vững ở quy mô lớn, hai giả định cần được cập nhật. Đầu tiên, các tác nhân trên thiết bị không còn là sự đánh đổi về thời gian sử dụng pin; chúng là một tính năng tuân thủ. Thứ hai, nút thắt trong quy trình làm việc của tác nhân đang chuyển từ khả năng mô hình sang sự trưởng thành của hệ sinh thái công cụ.
088339
08833919 giờ trước
> 385ms trung bình chọn công cụ. > 67 công cụ trên 13 máy chủ MCP. > 14.5GB dung lượng bộ nhớ. > Không có cuộc gọi mạng. LocalCowork là một AI agent chạy trên MacBook. Mã nguồn mở. 🧵
Công việc tuyệt vời từ: @liquidai @ramin_m_h
210