Le moment où l'intelligence a été gravée dans la pierre L'humanité fait quelque chose d'insensé en ce moment. Construire des centres de données de la taille de villes, ériger des centrales électriques à côté d'eux, lancer des réseaux de satellites et refroidir des salles remplies de superordinateurs qui dévorent des centaines de kilowatts avec des systèmes de refroidissement liquide. Tout cela pour faire fonctionner l'IA. Convaincus que c'est l'avenir. Mais l'histoire raconte une autre histoire. Chaque révolution technologique a commencé par des prototypes monstrueux, et ces monstres ont disparu au moment où une avancée pratique est arrivée. Vous vous souvenez d'ENIAC ? Une bête à tubes à vide qui remplissait une pièce entière. Elle a montré à l'humanité la magie de l'informatique, mais elle était lente, coûteuse et ne pouvait jamais évoluer. Puis le transistor est arrivé, et tout a changé. Les stations de travail, les PC, les smartphones ont suivi. Le monde a choisi de transcender ENIAC plutôt que d'en construire davantage. Les centres de données GPU que nous construisons aujourd'hui sont l'ENIAC de l'IA. Ils fonctionnent. Ils éblouissent. Mais ce n'est pas la fin. Avant de continuer, allez sur le site ci-dessous et demandez-lui n'importe quoi. Trente secondes suffisent. Vous devez ressentir cela dans votre corps. Un LLM est arrivé où la réponse est déjà là au moment où vous appuyez sur entrer. Nous avons vécu comme si la latence dans les réponses de l'IA était simplement la façon dont les choses sont. C'est pourquoi c'est un choc que aucun benchmark ne peut transmettre. L'informatique à usage général a changé le monde parce qu'elle est devenue rapide, bon marché et facile à construire. L'IA suivra le même chemin. Le problème est que l'IA d'aujourd'hui n'est nulle part près de ce chemin. Lorsque vous posez une question à l'IA, elle pose son menton sur sa main et réfléchit un moment. Les assistants de codage restent là, vides, pendant des minutes avant de donner une réponse, brisant votre élan. Même lorsque des réponses en une fraction de seconde sont nécessaires, tout ce que vous obtenez est une réponse tranquille. Parler à l'IA est encore comme passer un appel international. Parlez, attendez, attendez encore. Cette latence est le mur entre les humains et l'IA. Le problème de coût est pire. Faire fonctionner l'IA d'aujourd'hui exige un équipement et un capital énormes. Piles HBM, I/O complexes, câbles, refroidissement liquide, emballage avancé, empilement 3D. Pourquoi tout cela est-il nécessaire ? Parce que l'endroit qui se souvient et l'endroit qui pense sont séparés. Pensez-y de cette façon. Votre cerveau est à Séoul, mais tous vos souvenirs sont stockés dans un entrepôt à Busan. Chaque fois que vous devez vous rappeler quelque chose, vous devez prendre le KTX pour Busan pour le récupérer. Le matériel moderne de l'IA a exactement cette structure. La mémoire (DRAM) est grande et bon marché mais se trouve à l'extérieur de la puce, rendant l'accès des milliers de fois plus lent que la mémoire sur puce. Et vous ne pouvez pas mettre de DRAM à l'intérieur de la puce de calcul non plus — les processus de fabrication sont fondamentalement différents. Cette contradiction crée toute la complexité du matériel de l'IA. Pour réduire le voyage aller-retour Séoul-Busan, nous posons de la HBM comme un train à grande vitesse, construisons un empilement 3D comme des gratte-ciels, et faisons fonctionner le refroidissement liquide comme un immense climatiseur. Naturellement, la consommation d'énergie s'envole et les coûts montent en flèche. Taalas a renversé cela de fond en comble. Au lieu de récupérer des souvenirs de Busan, ils les ont plantés directement à l'intérieur du cerveau. Ils ont unifié la mémoire et le calcul sur une seule puce à une densité de niveau DRAM. Puis ils ont fait un pas de plus : construire du silicium dédié pour chaque modèle. Pas du prêt-à-porter — du sur-mesure. Tout au long de l'histoire de l'informatique, la spécialisation profonde a toujours été le chemin le plus sûr vers une efficacité extrême. Taalas a poussé ce principe à sa limite absolue. Comment est-ce possible ? Ils gravent les connaissances acquises du modèle — ses poids — directement dans les couches métalliques de silicium. L'intelligence, littéralement gravée dans la pierre. Un seul transistor détient un poids tout en effectuant simultanément une multiplication. Il se souvient et pense en même temps. Dans les mots du fondateur Ljubisa Bajic, ce n'est "pas de la physique nucléaire — c'est un truc astucieux que personne n'a vu parce que personne n'est allé dans cette voie." Ils gardent le squelette de la puce intact et échangent juste deux couches métalliques pour la personnaliser pour un modèle spécifique. Différents tatouages sur le même corps. Sur le processus 6nm de TSMC, il faut deux mois des poids du modèle à une carte fonctionnelle. La puce HC1, avec Llama 3.1 8B gravé dans son silicium, traite environ 17 000 tokens par seconde par utilisateur. Le H200 de Nvidia en fait 230, le B200 en fait 353, Groq 594, SambaNova 932, Cerebras 1 981. Tout le monde d'autre roule à vélo. Taalas a pris un jet. Une carte consomme 200 watts. Dix cartes dans un serveur, 2 500 watts. Un ventilateur suffit. Il se branche directement dans n'importe quel centre de données construit au cours des trente dernières années. Coût de fabrication : un vingtième. Énergie : un dixième. Pas de HBM, pas d'emballage avancé, pas d'empilement 3D, pas de refroidissement liquide. Rien n'est gratuit, bien sûr. Si un GPU à usage général est un haut-parleur qui peut jouer n'importe quelle chanson, une puce Taalas est une boîte à musique qui joue une seule mélodie à la perfection. Elle n'est pas intelligente, et lorsque le modèle change, vous avez besoin d'une nouvelle puce. Mais la taille du contexte est ajustable, et le fine-tuning LoRA fonctionne. Et surtout, le seuil auquel les modèles deviennent suffisants pour les tâches quotidiennes approche. Si les modèles de pointe avancent juste un peu plus, nous entrerons dans une période où un seul modèle sert un travail de routine pendant assez longtemps. C'est à ce moment-là que l'économie d'une boîte à musique dédiée tient. Nvidia a acquis Groq pour 20 milliards de dollars, SoftBank a avalé Graphcore, Intel a tendu la main vers SambaNova. Une vague massive vers le silicium spécifique à l'inférence se forme en ce moment. Taalas se trouve à son bord le plus radical. Le premier produit commence avec Llama gravé dans le silicium, suivi d'un modèle de raisonnement de taille moyenne au printemps et d'un modèle de pointe d'ici l'hiver. ...