Komputasi inferensi berada di jalur yang tepat untuk menjadi beban kerja komputasi besar-besaran pada akhir dekade ini. Saya pikir itu akan jauh lebih besar daripada pelatihan (terutama jika Anda mempertimbangkan peluncuran RL / kebutuhan inferensi untuk pelatihan). Dan itu masih merupakan lapangan bermain terbuka dalam hal perangkat keras, platform, dan model. Juga semakin jelas bahwa orang bersedia membayar premi untuk mengurangi latensi. Di sisi perangkat keras ada beberapa arah menarik yang perlu diperhatikan: - Pengaturan gaya SRAM tampaknya menjanjikan (GPT Spark di Cerebras, akuisisi Groq oleh Nvidia) - Sistem yang dipisahkan (prefill pada satu mesin / prosesor, pembuatan pada mesin yang berbeda) mungkin sangat masuk akal. Karakteristik komputasi prefill vs decode sangat berbeda, mengkhususkan diri pada tingkat perangkat keras akan menghasilkan keuntungan efisiensi - Saya juga tidak akan mengabaikan teknologi yang lebih eksotis seperti chip Taalas / komputasi memori dekat / dll. Meskipun mereka masih cukup jauh dari penyebaran skala besar, tekanan ekonomi untuk peningkatan efisiensi bisa menjadi katalis Di sisi algoritma / arsitektur: - Hampir setiap model bobot terbuka utama memiliki setidaknya satu pengoptimalan yang membuatnya lebih cepat untuk inferensi. Baik itu MoE, SSM (atau varietas hibrida lainnya), atau jendela geser atau perhatian yang jarang. Ada lebih banyak perbedaan di sini daripada setahun yang lalu. Dan akan menarik untuk melihat di mana kita bertemu. - Akankah model difusi menyatukan pemisahan prefill / decode? - Masih percaya ada keuntungan besar yang bisa diperoleh dalam desain bersama model ke perangkat keras dan beban kerja lebih lanjut Saya juga tidak berpikir kita akan memiliki solusi satu ukuran untuk semua di masa depan: - Model berbasis cloud mungkin terlihat sangat berbeda dari model yang dioptimalkan untuk edge - Model mungkin semakin dirancang bersama untuk perangkat keras tempat mereka digunakan - Akan ada setidaknya satu kenop yang menukarkan latensi dan efisiensi daya/biaya.