Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ai đó vừa vượt qua Neural Engine của Apple để huấn luyện các mô hình.
Neural Engine bên trong mỗi chiếc Mac dòng M được thiết kế cho việc suy diễn.
Chạy các mô hình, không phải huấn luyện chúng. Không có API công khai, không có tài liệu, và chắc chắn không có backpropagation.
Một nhà nghiên cứu đã đảo ngược kỹ thuật các API riêng tư và xây dựng một vòng lặp huấn luyện transformer chạy các bước tiến và lùi trực tiếp trên phần cứng ANE.
Phương pháp này hoàn toàn bỏ qua CoreML.
Thay vì sử dụng các công cụ chính thức của Apple, dự án xây dựng các chương trình bằng MIL (Model Intermediate Language), biên dịch chúng trong bộ nhớ bằng cách sử dụng các API `_ANEClient` không được tài liệu hóa, và cung cấp dữ liệu qua các bộ nhớ chia sẻ IOSurface.
Các trọng số được nướng vào các chương trình đã biên dịch như là các hằng số.
Mỗi bước huấn luyện gửi đi sáu kernel tùy chỉnh: attention forward, feedforward forward, sau đó là bốn bước lùi tính toán gradient liên quan đến đầu vào.
Gradient trọng số vẫn chạy trên CPU bằng cách sử dụng thư viện ma trận của Accelerate, nhưng công việc nặng nhọc (nhân ma trận, softmax, hàm kích hoạt) diễn ra trên ANE.
Điều này làm cho ba điều trở nên khả thi mà trước đây không có:
1. Huấn luyện các mô hình nhỏ tại chỗ mà không làm tiêu tốn pin của bạn
2. Tinh chỉnh trên thiết bị mà không cần gửi dữ liệu đến máy chủ hoặc khởi động GPU
3. Nghiên cứu về những gì phần cứng ANE thực sự có thể làm khi bạn bỏ qua các rào cản của Apple
Nếu phương pháp này có thể mở rộng, làn sóng AI trên thiết bị tiếp theo sẽ không còn chỉ là việc chạy mô hình đã được đóng băng của người khác.
Hàng đầu
Thứ hạng
Yêu thích
