Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tính toán suy diễn đang trên đà trở thành một khối lượng công việc tính toán khổng lồ vào cuối thập kỷ này. Tôi nghĩ nó sẽ lớn hơn nhiều so với việc đào tạo (đặc biệt nếu bạn xem xét các vòng RL / nhu cầu suy diễn cho việc đào tạo).
Và vẫn còn là một lĩnh vực mở trong việc phần cứng, các nền tảng và các mô hình.
Cũng ngày càng rõ ràng rằng mọi người sẵn sàng trả thêm tiền cho độ trễ giảm.
Về phần cứng, có một số hướng thú vị để theo dõi:
- Các thiết lập kiểu SRAM có vẻ hứa hẹn (GPT Spark trên Cerebras, việc Groq được Nvidia mua lại)
- Các hệ thống phân tán (điền trước trên một máy / bộ xử lý, tạo ra trên một cái khác) có lẽ sẽ rất hợp lý. Các đặc điểm tính toán của việc điền trước so với giải mã là rất khác nhau, chuyên môn hóa ở cấp độ phần cứng sẽ mang lại lợi ích về hiệu suất
- Tôi cũng không loại trừ công nghệ kỳ lạ hơn như chip Taalas / tính toán gần bộ nhớ / v.v. Mặc dù chúng vẫn còn khá xa so với việc triển khai quy mô lớn, áp lực kinh tế để đạt được lợi ích về hiệu suất có thể là một chất xúc tác
Về phía thuật toán / kiến trúc:
- Hầu như mọi mô hình trọng số mở lớn đều có ít nhất một tối ưu hóa giúp nó nhanh hơn cho việc suy diễn. Dù là MoE, SSM (hoặc các biến thể lai khác), hoặc cửa sổ trượt hoặc chú ý thưa. Có nhiều sự khác biệt hơn ở đây so với một năm trước. Và sẽ rất thú vị để xem chúng ta hội tụ ở đâu.
- Liệu các mô hình khuếch tán có thống nhất được sự phân tách điền trước / giải mã không?
- Vẫn tin rằng có những lợi ích lớn có thể đạt được trong việc thiết kế đồng thời mô hình với phần cứng và khối lượng công việc
Tôi cũng không nghĩ rằng chúng ta sẽ có một giải pháp phù hợp cho tất cả trong tương lai:
- Các mô hình dựa trên đám mây có thể trông rất khác so với các mô hình tối ưu hóa cho biên
- Các mô hình có thể ngày càng được thiết kế đồng thời cho phần cứng mà chúng được triển khai trên đó
- Sẽ có ít nhất một núm điều chỉnh nào đó để cân bằng giữa độ trễ và hiệu quả năng lượng / chi phí.
Hàng đầu
Thứ hạng
Yêu thích
