DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Il calcolo dell'inferenza è destinato a diventare un carico computazionale massiccio entro la fine di questo decennio. Penso che sarà molto più grande rispetto all'addestramento (soprattutto se consideri i rollouts RL / le esigenze di inferenza per l'addestramento). E rimane ancora un campo aperto in termini di hardware, piattaforme e modelli. È anche sempre più chiaro che le persone sono disposte a pagare un premio per una latenza ridotta. Dal lato hardware ci sono diverse direzioni interessanti da tenere d'occhio: - Le configurazioni in stile SRAM sembrano promettenti (GPT Spark su Cerebras, acquisizione di Groq da parte di Nvidia) - I sistemi disaggregati (prefill su una macchina / processore, generazione su un'altra) probabilmente hanno molto senso. Le caratteristiche computazionali del prefill rispetto al decode sono così diverse, specializzarsi a livello hardware porterà a guadagni di efficienza - Non scommetterei nemmeno su tecnologie più esotiche come il chip Taalas / il calcolo in prossimità della memoria / ecc. Anche se sono ancora piuttosto lontane da un'implementazione su larga scala, la pressione economica per guadagni di efficienza potrebbe essere un catalizzatore Dal lato degli algoritmi / architettura: - Praticamente ogni modello open-weights principale ha almeno un'ottimizzazione che lo rende più veloce per l'inferenza. Che si tratti di MoE, SSM (o altre varietà ibride), o finestra scorrevole o attenzione sparsa. Ci sono più differenze qui rispetto a un anno fa. E sarà interessante vedere dove convergiamo. - I modelli di diffusione uniranno la divisione prefill / decode? - Credo ancora che ci siano grandi guadagni da ottenere in ulteriori co-progettazioni di modello, hardware e carico di lavoro Non penso nemmeno che avremo una soluzione universale in futuro: - I modelli basati su cloud potrebbero apparire molto diversi dai modelli ottimizzati per l'edge - I modelli potrebbero essere sempre più co-progettati per l'hardware su cui vengono implementati - Ci sarà almeno un parametro che bilancia latenza ed efficienza energetica / costo.

Principali

Ranking

Preferiti