DApp Store | Centrum Web3 pro události a hry

Populární témata

Okamžik, kdy byla inteligence vytesána do kamene Lidstvo právě teď dělá něco šíleného. Budování datových center velkých jako města, stavění elektráren vedle nich, vypouštění satelitních sítí a chlazení místností plných superpočítačů, které spotřebovávají stovky kilowattů pomocí kapalného chlazení. To vše kvůli AI provozu. Přesvědčený, že tohle je budoucnost. Ale historie vypráví jiný příběh. Každá technologická revoluce začala s monstrózními prototypy a tyto příšery zmizely ve chvíli, kdy přišel praktický průlom. Pamatujete si ENIAC? Vakuová trubicová bestie, která zaplnila celou místnost. Ukázal lidstvu kouzlo výpočetní techniky, ale byl pomalý, drahý a nikdy se nemohl rozšířit. Pak přišel tranzistor a všechno se změnilo. Následovaly pracovní stanice, počítače, chytré telefony. Svět se rozhodl překročit hranice ENIACu místo toho, aby jich stavěl více. GPU datová centra, která dnes stavíme, jsou AI ENIAC. Fungují. Oslňují. Ale to není konec. Než budete číst dál, navštivte níže uvedený web a zeptejte se ho na cokoliv. Třicet sekund stačí. Musíš to cítit ve svém těle. Přišel LLM, kde je odpověď už přítomna ve chvíli, kdy stisknete enter. Žili jsme, jako by latence v reakcích AI byla prostě tak, jak to je. Proto je to šok, který žádný benchmark nedokáže vyjádřit. Univerzální výpočetní technika změnila svět, protože se stala rychlou, levnou a snadno sestavovatelnou. AI půjde stejnou cestou. Problém je, že dnešní AI se této cestě vůbec nepřibližuje. Když se AI zeptáte, opře si bradu o ruku a chvíli přemýšlí. Asistenti programování na ně minuty zírají bez výrazu, než odpovídají, což narušuje váš plynulý tok. I když jsou potřeba rychlé odpovědi, dostanete jen pohodovou odpověď. Mluvit s AI je stále jako uskutečnit mezinárodní hovor. Mluv, počkej, počkej ještě chvíli. Tato latence je zdí mezi lidmi a AI. Problém s náklady je horší. Provoz dnešní AI vyžaduje obrovské vybavení a kapitál. HBM stacky, složité I/O, kabely, kapalinové chlazení, pokročilé balení, 3D stacking. Proč je to všechno nutné? Protože místo, které si pamatuje, a místo, které myslí, jsou oddělené. Představte si to takto. Tvůj mozek je v Soulu, ale všechny tvé vzpomínky jsou uloženy ve skladu v Pusanu. Pokaždé, když potřebujete něco vyvolat, musíte jet KTX do Busanu, abyste to vyzvedli. Moderní AI hardware má přesně tuto strukturu. Paměť (DRAM) je velká a levná, ale nachází se mimo čip, což způsobuje, že přístup je tisíckrát pomalejší než v paměti na čipu. A ani DRAM nelze vložit do výpočetního čipu — výrobní procesy jsou zásadně odlišné. Tento rozpor vytváří veškerou složitost AI hardwaru. Abychom zkrátili cestu mezi Soulem a Pusanem, pokládáme HBM jako vysokorychlostní železnici, stavíme 3D stohovací prvky jako výškové budovy a používáme kapalinové chlazení jako masivní klimatizaci. Samozřejmě spotřeba energie prudce stoupá a náklady vystřelují do nebes. Taalas to obrátil úplně nahoru. Místo aby si vzpomínky z Busanu vytahovali, zasadili je přímo do mozku. Sjednotili paměť a výpočetní procesory na jednom čipu s hustotou na úrovni DRAM. Pak šli ještě dál: postavili speciální silikon pro každý model. Ne běžné – šití na míru. V průběhu historie výpočetní techniky byla hluboká specializace vždy nejjistější cestou k extrémní efektivitě. Taalas tento princip posunul na jeho absolutní hranici. Jak je to možné? Vyryjí naučené znalosti modelu — jeho hmotnosti — přímo do kovových vrstev křemíku. Inteligence, doslova vytesaná do kamene. Jeden tranzistor drží závaží a zároveň provádí násobení. Pamatuje si a zároveň myslí. Slovy zakladatele Ljubiše Bajice to "není jaderná fyzika — je to chytrý trik, který nikdo neviděl, protože nikdo touto cestou nešel." Kostru čipu nechávají neporušenou a vymění jen dvě kovové vrstvy, aby ji přizpůsobili konkrétnímu modelu. Různé tetování na stejném těle. U TSMC 6nm procesu trvá od hmotností modelu k funkční kartě dva měsíce. Čip HC1, s Llama 3.1 8B zabudovaným v křemíku, zpracovává přibližně 17 000 tokenů za sekundu na uživatele. Nvidia H200 má 230, B200 353, Groq 594, SambaNova 932, Cerebras 1 981. Všichni ostatní jezdí na kole. Taalas vzal tryskáč. Jedna karta spotřebovává 200 wattů. Deset karet na serveru, 2 500 wattů. Stačí jeden vějíř. Připojí se přímo do jakéhokoliv datového centra postaveného za posledních třicet let. Výrobní náklady: jedna dvacátina. Síla: jedna desetina. Žádné HBM, žádné pokročilé balení, žádné 3D skládání, žádné kapalinové chlazení. Nic samozřejmě není zadarmo. Pokud je univerzální GPU reproduktor, který dokáže přehrát jakoukoli skladbu, Taalas čip je hrací skříňka, která hraje jednu skladbu bezchybně. Není to chytré, a když se model změní, potřebujete nový čip. Ale velikost kontextu je nastavitelná a doladění LoRA funguje. A co je zásadní, blíží se hranice, kdy modely budou dostačující pro každodenní úkoly. Pokud se frontier modely posunou ještě o něco dál, vstoupíme do období, kdy jeden model bude dlouhodobě rutinně fungovat. Tehdy se ekonomika specializované hudební skříňky osvědčila. Nvidia získala Groq za 20 miliard dolarů, SoftBank pohltila Graphcore, Intel sáhl po SambaNova. Právě teď se formuje obrovská vlna směrem k křemíku specifickému pro inferenci. Taalas stojí na svém nejradikálnějším okraji. První produkt začíná Llama vyřezávanou ze silikonu, následuje středně velký model pro uvažování na jaře a model frontier v zimě. Velmi rychlá AI je zásadně odlišná AI. Když je možná latence pod milisekundu, scénáře, které si dokážeme jen představit, se stávají skutečností. Ne mezinárodní hovor — pocit, když běžíte vedle někoho a mluvíte na plný plyn. Taalas byl otevřen jako beta, i když jeho první model ještě není na hranici. Za tím je sebevědomí: prožívejte sami, co je možné touto rychlostí. ...

Top

Hodnocení

Oblíbené