Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Obliczenia wnioskowania zmierzają do tego, aby stać się ogromnym obciążeniem obliczeniowym do końca tej dekady. Myślę, że będzie to znacznie większe niż trening (szczególnie jeśli weźmiesz pod uwagę potrzeby wnioskowania dla treningu / realizacji RL).
I wciąż jest to otwarte pole do gry, jeśli chodzi o sprzęt, platformy i modele.
Coraz bardziej oczywiste jest również, że ludzie są gotowi zapłacić premię za zmniejszenie opóźnienia.
Po stronie sprzętowej jest kilka interesujących kierunków, na które warto zwrócić uwagę:
- Ustawienia w stylu SRAM wydają się obiecujące (GPT Spark na Cerebras, przejęcie Groq przez Nvidię)
- Systemy rozdzielone (prefill na jednej maszynie / procesorze, generacja na innej) prawdopodobnie mają sens. Charakterystyki obliczeniowe prefill i dekodowania są tak różne, że specjalizacja na poziomie sprzętowym przyniesie zyski wydajności
- Nie zlekceważyłbym również bardziej egzotycznych technologii, takich jak chip Taalas / obliczenia w pobliżu pamięci / itd. Chociaż są one wciąż dość daleko od dużej skali wdrożenia, presja ekonomiczna na zyski wydajnościowe może być katalizatorem
Po stronie algorytmu / architektury:
- Praktycznie każdy główny model z otwartymi wagami ma przynajmniej jedną optymalizację, która przyspiesza wnioskowanie. Niezależnie od tego, czy jest to MoE, SSM (lub inny hybrydowy wariant), czy okno przesuwne lub rzadkie uwagi. Jest tu więcej różnic niż rok temu. I będzie interesujące zobaczyć, gdzie się zbiegnie.
- Czy modele dyfuzji zjednoczą podział prefill / dekodowanie?
- Wciąż wierzę, że można osiągnąć duże zyski w dalszym współprojektowaniu modelu z hardwarem i obciążeniem
Nie sądzę również, że w przyszłości będziemy mieli rozwiązanie „jeden rozmiar dla wszystkich”:
- Modele oparte na chmurze mogą wyglądać bardzo różnie od modeli zoptymalizowanych pod kątem brzegowym
- Modele mogą być coraz bardziej współprojektowane dla sprzętu, na którym są wdrażane
- Będzie przynajmniej jeden element, który będzie równoważył opóźnienie i efektywność energetyczną / koszt.
Najlepsze
Ranking
Ulubione
