Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
În momentul în care inteligența a fost săpată în piatră
Umanitatea face ceva nebunesc acum. Construind centre de date de mărimea orașelor, ridicând centrale electrice lângă ele, lansând rețele de sateliți și răcind camere pline cu supercomputere care devora sute de kilowați cu sisteme de răcire lichidă. Totul pentru a rula AI. Convins că acesta este viitorul.
Dar istoria spune o altă poveste. Fiecare revoluție tehnologică a început cu prototipuri monstruoase, iar acei monștri au dispărut în momentul în care a apărut o descoperire practică. Îți amintești de ENIAC? O bestie cu tuburi de vid care umplea o cameră întreagă. A arătat umanității magia calculatoarelor, dar era lentă, scumpă și nu putea niciodată să se scaleze. Apoi a sosit tranzistorul și totul s-a schimbat. Au urmat stații de lucru, PC-uri, smartphone-uri. Lumea a ales să transcendă ENIAC în loc să construiască mai multe dintre ele. Centrele de date GPU pe care le construim astăzi sunt ENIAC-urile AI. Funcționează. Strălucesc. Dar acesta nu este sfârșitul.
Înainte să citești mai departe, intră pe site-ul de mai jos și întreabă orice. Treizeci de secunde sunt de ajuns. Trebuie să simți asta în corpul tău.
A sosit un LLM unde răspunsul este deja acolo în momentul în care apeși enter. Am trăit ca și cum latența în răspunsurile AI ar fi pur și simplu așa cum stau lucrurile. De aceea este un șoc pe care niciun reper nu îl poate transmite.
Calculul cu scop general a schimbat lumea pentru că a devenit rapid, ieftin și ușor de construit. AI-ul va urma aceeași cale. Problema este că AI-ul de astăzi nu se apropie deloc de această cale. Când îi pui o întrebare AI-ului, își sprijină bărbia pe mână și se gândește o vreme. Asistenții de programare privesc în gol minute întregi înainte să dea un răspuns, spulberându-ți fluxul. Chiar și când sunt necesare răspunsuri în fracțiuni de secundă, tot ce primești este un răspuns relaxat. Să vorbești cu AI este încă ca și cum ai face un apel internațional. Vorbește, așteaptă, mai așteaptă puțin. Această latență este zidul dintre oameni și AI.
Problema costurilor este mai gravă. Folosirea inteligenței artificiale de astăzi necesită echipamente și capital enorm. Stive HBM, I/O complexe, cabluri, răcire cu lichid, ambalare avansată, stivuire 3D. De ce este nevoie de toate acestea? Pentru că locul care își amintește și locul care gândește sunt separate.
Gândește-te așa. Creierul tău este în Seul, dar toate amintirile tale sunt depozitate într-un depozit din Busan. De fiecare dată când trebuie să reții ceva, trebuie să iei KTX-ul la Busan pentru a-l recupera. Hardware-ul AI modern are exact această structură. Memoria (DRAM) este mare și ieftină, dar se află în afara cipului, făcând accesul de mii de ori mai lent decât memoria de pe cip. Și nu poți pune DRAM în cipul de calcul — procesele de fabricație sunt fundamental diferite. Această contradicție creează toată complexitatea hardware-ului AI. Pentru a reduce drumul dus-întors Seul-Busan, construim HBM ca o cale ferată de mare viteză, construim suprapuneri 3D ca clădiri înalte și folosim răcire cu lichid ca aer condiționat masiv. În mod natural, consumul de energie crește vertiginos, iar costurile explodează.
Taalas a răsturnat asta de la zero. În loc să aducă amintiri din Busan, le-au plantat direct în creier. Ele unifică memoria și calculul pe un singur cip la densitate la nivel de DRAM. Apoi au mers și mai departe: au construit siliciu dedicat pentru fiecare model. Nu croitorie gata de pe raft — croitorie personalizată. De-a lungul istoriei informaticii, specializarea profundă a fost întotdeauna cea mai sigură cale către eficiență extremă. Taalas a dus acest principiu la limita sa absolută.
Cum este posibil așa ceva? Ei gravează cunoștințele învățate ale modelului — greutățile sale — direct în straturile metalice de siliciu. Inteligență, literalmente sculptată în piatră. Un singur tranzistor deține o greutate în timp ce efectuează simultan înmulțirea. Își amintește și gândește în același timp. În cuvintele fondatorului Ljubisa Bajic, aceasta "nu este fizică nucleară — este un truc ingenios pe care nimeni nu l-a văzut pentru că nimeni nu a mers pe acest drum." Păstrează scheletul cipului intact și schimbă doar două straturi metalice pentru a-l personaliza pentru un model specific. Tatuaje diferite pe același corp. Pe procesul de 6nm al TSMC, durează două luni de la greutățile modelului până la o placă funcțională.
Cipul HC1, cu Llama 3.1 8B sculptat în siliciu, procesează aproximativ 17.000 de tokenuri pe secundă per utilizator. Nvidia H200 face 230, B200 353, Groq 594, SambaNova 932, Cerebra 1.981. Toți ceilalți merg cu bicicleta. Taalas a luat un avion. O carte consumă 200 wați. Zece cărți pe server, 2.500 wați. Un ventilator este suficient. Se conectează direct la orice centru de date construit în ultimii treizeci de ani. Cost de fabricație: o douăzecime. Putere: o zecime. Fără HBM, fără ambalaje avansate, fără stivuire 3D, fără răcire cu lichid.
Nimic nu este gratuit, desigur. Dacă un GPU cu scop general este un difuzor care poate reda orice melodie, un cip Taalas este o cutie muzicală care redă o melodie perfect. Nu este inteligent, iar când modelul se schimbă, ai nevoie de un cip nou. Dar dimensiunea contextului este ajustabilă, iar ajustarea fină a LoRA funcționează.
Și, cel mai important, pragul la care modelele devin suficiente pentru sarcinile cotidiene se apropie. Dacă modelele frontieră avansează puțin mai mult, vom intra într-o perioadă în care un singur model servește pentru o activitate de rutină pentru o perioadă destul de lungă. Atunci se susțin economia unei cutii muzicale dedicate.
Nvidia a achiziționat Groq pentru 20 de miliarde de dolari, SoftBank a înghițit Graphcore, Intel a apelat la SambaNova. Se formează acum un val masiv către siliciu specific inferenței. Taalas se află la cea mai radicală margine a sa. Primul produs începe cu Llama sculptată în siliciu, urmat de un model de raționament de dimensiuni medii primăvara și un model frontier până iarna.
O inteligență artificială foarte rapidă este fundamental diferită. Când latența submilisecundă devine posibilă, scenarii pe care doar le putem imagina devin reale. Nu un apel internațional — senzația de a alerga alături de cineva și de a vorbi cu viteză maximă. Taalas a fost lansat ca beta, deși primul său model nu este încă frontier. În spatele acestui lucru se află o încredere: simte cu ochii tăi ce devine posibil la această viteză.
...

Limită superioară
Clasament
Favorite
