Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Momento em que a Inteligência Foi Esculpida em Pedra
A humanidade está fazendo algo insano agora. Construindo centros de dados do tamanho de cidades, erguendo usinas de energia ao lado deles, lançando redes de satélites e resfriando salas cheias de supercomputadores que devoram centenas de quilowatts com sistemas de resfriamento a líquido. Tudo para rodar IA. Convencidos de que este é o futuro.
Mas a história conta uma história diferente. Cada revolução tecnológica começou com protótipos monstruosos, e esses monstros desapareceram no momento em que um avanço prático chegou. Lembra do ENIAC? Uma besta de tubo de vácuo que preenchia uma sala inteira. Mostrou à humanidade a mágica da computação, mas era lenta, cara e nunca poderia escalar. Então, o transistor chegou, e tudo mudou. Estações de trabalho, PCs, smartphones seguiram. O mundo escolheu transcender o ENIAC em vez de construir mais deles. Os centros de dados de GPU que estamos construindo hoje são o ENIAC da IA. Eles funcionam. Eles deslumbram. Mas este não é o fim.
Antes de continuar, vá ao site abaixo e pergunte qualquer coisa. Trinta segundos é tudo o que leva. Você precisa sentir isso em seu corpo.
Um LLM chegou onde a resposta já está lá no instante em que você aperta enter. Temos vivido como se a latência nas respostas da IA fosse simplesmente a forma como as coisas são. É por isso que isso é um choque que nenhum benchmark pode transmitir.
A computação de propósito geral mudou o mundo porque se tornou rápida, barata e fácil de construir. A IA seguirá o mesmo caminho. O problema é que a IA de hoje está longe desse caminho. Quando você faz uma pergunta à IA, ela apoia o queixo na mão e pensa por um tempo. Assistentes de codificação ficam olhando em branco por minutos antes de entregar uma resposta, quebrando seu fluxo. Mesmo quando respostas em frações de segundo são necessárias, tudo o que você recebe é uma resposta tranquila. Falar com a IA ainda é como fazer uma chamada internacional. Fale, espere, espere mais um pouco. Essa latência é a parede entre humanos e IA.
O problema de custo é pior. Executar a IA de hoje exige equipamentos e capital enormes. Pilhas de HBM, I/O complexos, cabos, resfriamento a líquido, embalagem avançada, empilhamento 3D. Por que tudo isso é necessário? Porque o lugar que lembra e o lugar que pensa estão separados.
Pense assim. Seu cérebro está em Seul, mas todas as suas memórias estão armazenadas em um armazém em Busan. Cada vez que você precisa recordar algo, tem que pegar o KTX para Busan para recuperá-lo. O hardware moderno de IA tem exatamente essa estrutura. A memória (DRAM) é grande e barata, mas fica fora do chip, tornando o acesso milhares de vezes mais lento do que a memória no chip. E você não pode colocar DRAM dentro do chip de computação também — os processos de fabricação são fundamentalmente diferentes. Essa contradição cria toda a complexidade no hardware de IA. Para reduzir a viagem de ida e volta Seul-Busan, colocamos HBM como uma ferrovia de alta velocidade, construímos empilhamento 3D como arranha-céus e rodamos resfriamento a líquido como um enorme ar condicionado. Naturalmente, o consumo de energia dispara e os custos vão pelas nuvens.
A Taalas virou isso de cabeça para baixo. Em vez de buscar memórias em Busan, plantaram-nas diretamente dentro do cérebro. Unificaram memória e computação em um único chip com densidade a nível de DRAM. Então, deram um passo adiante: construindo silício dedicado para cada modelo. Não off-the-rack — sob medida. Ao longo da história da computação, a especialização profunda sempre foi o caminho mais seguro para a eficiência extrema. A Taalas empurrou esse princípio até seu limite absoluto.
Como isso é possível? Eles gravam o conhecimento aprendido do modelo — seus pesos — diretamente nas camadas metálicas de silício. Inteligência, literalmente esculpida em pedra. Um único transistor mantém um peso enquanto realiza multiplicação simultaneamente. Ele lembra e pensa ao mesmo tempo. Nas palavras do fundador Ljubisa Bajic, isso não é "física nuclear — é um truque inteligente que ninguém viu porque ninguém seguiu esse caminho." Eles mantêm o esqueleto do chip intacto e trocam apenas duas camadas metálicas para personalizá-lo para um modelo específico. Tatuagens diferentes no mesmo corpo. No processo de 6nm da TSMC, leva dois meses desde os pesos do modelo até um cartão funcional.
O chip HC1, com Llama 3.1 8B esculpido em seu silício, processa aproximadamente 17.000 tokens por segundo por usuário. O H200 da Nvidia faz 230, o B200 faz 353, Groq 594, SambaNova 932, Cerebras 1.981. Todos os outros estão andando de bicicleta. A Taalas pegou um jato. Um cartão consome 200 watts. Dez cartões em um servidor, 2.500 watts. Um ventilador é suficiente. Ele se conecta diretamente a qualquer centro de dados construído nos últimos trinta anos. Custo de fabricação: um vigésimo. Energia: um décimo. Sem HBM, sem embalagem avançada, sem empilhamento 3D, sem resfriamento a líquido.
Nada é grátis, é claro. Se uma GPU de propósito geral é um alto-falante que pode tocar qualquer música, um chip Taalas é uma caixa de música que toca uma melodia perfeitamente. Não é inteligente, e quando o modelo muda, você precisa de um novo chip. Mas o tamanho do contexto é ajustável, e o ajuste fino do LoRA funciona.
E, crucialmente, o limiar em que os modelos se tornam suficientes para tarefas do dia a dia está se aproximando. Se os modelos de fronteira avançarem apenas um pouco mais, entraremos em um período em que um único modelo serve para trabalho rotineiro por um bom tempo. É quando a economia de uma caixa de música dedicada se sustenta.
A Nvidia adquiriu a Groq por 20 bilhões de dólares, a SoftBank engoliu a Graphcore, a Intel alcançou a SambaNova. Uma onda massiva em direção ao silício específico para inferência está se formando agora. A Taalas está em sua borda mais radical. O primeiro produto começa com Llama esculpido em silício, seguido por um modelo de raciocínio de médio porte na primavera e um modelo de fronteira no inverno.
Uma IA muito rápida é uma IA fundamentalmente diferente. Quando a latência sub-milissegundo se torna possível, cenários que só poderíamos imaginar se tornam reais. Não uma chamada internacional — a sensação de correr ao lado de alguém e conversar em plena velocidade. A Taalas abriu como beta, mesmo que seu primeiro modelo ainda não seja de fronteira. Por trás disso está uma confiança: sinta por si mesmo o que se torna possível a essa velocidade.
...

Top
Classificação
Favoritos
