Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Het moment waarop intelligentie in steen werd gekerfd
De mensheid doet op dit moment iets krankzinnigs. Gegevenscentra ter grootte van steden bouwen, energiecentrales ernaast oprichten, satellietnetwerken lanceren en koelruimtes vol supercomputers die honderden kilowatt verbruiken met vloeistofkoelsystemen. Alles om AI te laten draaien. Overtuigd dat dit de toekomst is.
Maar de geschiedenis vertelt een ander verhaal. Elke technologische revolutie is begonnen met monsterachtige prototypes, en die monsters verdwenen op het moment dat er een praktische doorbraak kwam. Vergeet ENIAC niet? Een vacuümbuisbeest dat een hele kamer vulde. Het toonde de mensheid de magie van computeren, maar het was traag, duur en kon nooit opschalen. Toen kwam de transistor, en alles veranderde. Werkstations, pc's, smartphones volgden. De wereld koos ervoor om ENIAC te overstijgen in plaats van er meer van te bouwen. De GPU-gegevenscentra die we vandaag bouwen zijn AI's ENIAC. Ze werken. Ze verbazen. Maar dit is niet het einde.
Voordat je verder leest, ga naar de onderstaande site en vraag het iets. Dertig seconden is alles wat het kost. Je moet dit in je lichaam voelen.
Een LLM is aangekomen waar het antwoord er al is op het moment dat je op enter drukt. We hebben geleefd alsof latentie in AI-antwoorden gewoon de manier is waarop dingen zijn. Daarom is dit een schok die geen enkele benchmark kan overbrengen.
Algemene computing heeft de wereld veranderd omdat het snel, goedkoop en gemakkelijk te bouwen werd. AI zal hetzelfde pad volgen. Het probleem is dat de AI van vandaag nergens in de buurt van dat pad is. Wanneer je AI een vraag stelt, steunt het zijn kin op zijn hand en denkt een tijdje na. Coderingassistenten staren minutenlang leeg voordat ze een antwoord geven, waardoor je flow wordt verstoord. Zelfs wanneer er een antwoord in een fractie van een seconde nodig is, krijg je alleen een ontspannen antwoord. Praten met AI is nog steeds als het maken van een internationale oproep. Spreek, wacht, wacht nog wat. Deze latentie is de muur tussen mensen en AI.
Het kostenprobleem is erger. Het draaien van de AI van vandaag vereist enorme apparatuur en kapitaal. HBM-stacks, complexe I/O, kabels, vloeistofkoeling, geavanceerde verpakking, 3D-stapeling. Waarom is dit allemaal nodig? Omdat de plek die herinnert en de plek die denkt gescheiden zijn.
Denk er zo over. Je hersenen zijn in Seoul, maar al je herinneringen zijn opgeslagen in een magazijn in Busan. Elke keer dat je iets moet herinneren, moet je de KTX naar Busan nemen om het op te halen. Moderne AI-hardware heeft precies deze structuur. Geheugen (DRAM) is groot en goedkoop, maar zit buiten de chip, waardoor de toegang duizenden keren langzamer is dan op-chip geheugen. En je kunt DRAM ook niet in de rekenchip plaatsen — de fabricageprocessen zijn fundamenteel verschillend. Deze tegenstrijdigheid creëert alle complexiteit in AI-hardware. Om de rondreis van Seoul naar Busan te verkorten, leggen we HBM neer als een hogesnelheidslijn, bouwen we 3D-stapeling als hoogbouw en draaien we vloeistofkoeling als enorme airconditioning. Natuurlijk stijgt het energieverbruik en gaan de kosten door het dak.
Taalas heeft dit van de grond af aan omgedraaid. In plaats van herinneringen uit Busan op te halen, hebben ze ze direct in de hersenen geplant. Ze hebben geheugen en rekenkracht op een enkele chip op DRAM-niveau dichtheid verenigd. Toen gingen ze nog een stap verder: ze bouwden speciale silicium voor elk model. Niet van de plank — op maat gemaakt. Door de geschiedenis van de computing is diepe specialisatie altijd het zekerste pad naar extreme efficiëntie geweest. Taalas heeft dat principe tot het absolute maximum gedreven.
Hoe is dit mogelijk? Ze etsen de geleerde kennis van het model — zijn gewichten — direct in de metalen lagen van silicium. Intelligentie, letterlijk in steen gekerfd. Een enkele transistor houdt een gewicht vast terwijl hij tegelijkertijd vermenigvuldiging uitvoert. Het herinnert en denkt tegelijkertijd. In de woorden van oprichter Ljubisa Bajic, dit is "geen nucleaire fysica — het is een slimme truc die niemand zag omdat niemand dit pad is ingegaan." Ze houden het skelet van de chip intact en verwisselen slechts twee metalen lagen om het aan te passen voor een specifiek model. Verschillende tatoeages op hetzelfde lichaam. Op TSMC's 6nm-proces duurt het twee maanden van modelgewichten tot een werkende kaart.
De HC1-chip, met Llama 3.1 8B in zijn silicium gekerfd, verwerkt ongeveer 17.000 tokens per seconde per gebruiker. Nvidia's H200 doet 230, de B200 doet 353, Groq 594, SambaNova 932, Cerebras 1.981. Iedereen rijdt op fietsen. Taalas nam een jet. Eén kaart trekt 200 watt. Tien kaarten in een server, 2.500 watt. Een ventilator is genoeg. Het sluit direct aan op elk gegevenscentrum dat in de afgelopen dertig jaar is gebouwd. Fabricagekosten: een twintigste. Vermogen: een tiende. Geen HBM, geen geavanceerde verpakking, geen 3D-stapeling, geen vloeistofkoeling.
Niets is gratis, natuurlijk. Als een algemene GPU een luidspreker is die elk nummer kan afspelen, is een Taalas-chip een muziekdoos die één melodie perfect speelt. Het is niet slim, en wanneer het model verandert, heb je een nieuwe chip nodig. Maar de contextgrootte is aanpasbaar, en LoRA-fijnstemming werkt.
En cruciaal is dat de drempel waarop modellen voldoende worden voor dagelijkse taken in zicht komt. Als grensmodellen nog een beetje verder vooruitgaan, komen we in een periode waarin één model routinematig werk voor een lange tijd kan bedienen. Dat is wanneer de economie van een speciale muziekdoos standhoudt.
Nvidia verwierf Groq voor $20 miljard, SoftBank slikte Graphcore, Intel reikte naar SambaNova. Een enorme golf naar inference-specifiek silicium vormt zich op dit moment. Taalas staat aan de meest radicale rand. Het eerste product begint met Llama in silicium gekerfd, gevolgd door een middelgrote redeneermodel in de lente en een grensmodel tegen de winter.
Een zeer snelle AI is een fundamenteel andere AI. Wanneer sub-milliseconde latentie mogelijk wordt, worden scenario's die we ons alleen konden voorstellen werkelijkheid. Niet een internationale oproep — het gevoel van rennen naast iemand en praten op volle snelheid. Taalas opende als een bèta, ook al is het eerste model nog niet grens. Daarachter ligt een vertrouwen: voel zelf wat mogelijk wordt bij deze snelheid.
...

Boven
Positie
Favorieten
