Inferensberäkningar är på väg att bli en enorm beräkningsbelastning vid slutet av detta decennium. Jag tror att det kommer vara mycket större än träning (särskilt om man tar hänsyn till RL-utrullningar / inferensbehov för utbildningen). Och det är fortfarande en öppen spelplan när det gäller hårdvara, plattformar och modeller. Det blir också allt tydligare att folk är villiga att betala en premie för minskad latens. På hårdvarusidan finns det flera intressanta riktningar att hålla ögonen på: - SRAM-liknande uppsättningar verkar lovande (GPT Spark på Cerebras, Groq-förvärv av Nvidia) - Disaggregerade system (prefill på en maskin/processor, generering på en annan) är förmodligen mycket logiskt. De beräkningsmässiga egenskaperna för prefill kontra decode är så olika att specialisering på hårdvarunivå ger effektivitetsvinster - Jag skulle inte heller utesluta mer exotisk teknik som Taalas-chippet / närminnesberäkning / etc. Även om de fortfarande är ganska långt ifrån storskalig utbyggnad kan det ekonomiska trycket på effektivitetsvinster bli en katalysator På algoritm-/arkitektursidan: - I princip varje större öppen viktmodell har minst en optimering som gör den snabbare för inferens. Oavsett om det är MoE, SSM (eller annan hybridvariant), eller glidande fönster eller gles uppmärksamhet. Det finns fler skillnader här än för ett år sedan. Och det ska bli intressant att se var vi konvergerar. - Kommer diffusionsmodeller att förena förfyllnings- och avkodningsuppdelningen? - Tror fortfarande att det finns stora vinster att göra i vidare samdesign av modell till hårdvara och arbetsbelastning Jag tror inte heller att vi kommer att ha en universallösning i framtiden: - Molnbaserade modeller kan se mycket annorlunda ut än kantoptimerade modeller - Modeller kan alltmer samdesignas för den hårdvara de används på - Det kommer att finnas minst en ratt som väger mellan latens och energieffektivitet / kostnad.