Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El momento en que la inteligencia fue esculpida en piedra
La humanidad está haciendo algo insano en este momento. Construyendo centros de datos del tamaño de ciudades, erigiendo plantas de energía junto a ellos, lanzando redes de satélites y enfriando salas llenas de supercomputadoras que devoran cientos de kilovatios con sistemas de refrigeración líquida. Todo para ejecutar IA. Convencidos de que este es el futuro.
Pero la historia cuenta una historia diferente. Cada revolución tecnológica ha comenzado con prototipos monstruosos, y esos monstruos desaparecieron en el momento en que llegó un avance práctico. ¿Recuerdas ENIAC? Una bestia de tubos de vacío que llenaba toda una habitación. Mostró a la humanidad la magia de la computación, pero era lenta, cara y nunca podría escalar. Luego llegó el transistor, y todo cambió. Las estaciones de trabajo, las PC, los teléfonos inteligentes siguieron. El mundo eligió trascender ENIAC en lugar de construir más de ellos. Los centros de datos de GPU que estamos construyendo hoy son el ENIAC de la IA. Funcionan. Deslumbran. Pero este no es el final.
Antes de continuar, ve al sitio a continuación y pregúntale cualquier cosa. Treinta segundos es todo lo que se necesita. Necesitas sentir esto en tu cuerpo.
Un LLM ha llegado donde la respuesta ya está ahí en el instante en que presionas enter. Hemos estado viviendo como si la latencia en las respuestas de IA fuera simplemente la forma en que son las cosas. Por eso es un shock que ningún benchmark puede transmitir.
La computación de propósito general cambió el mundo porque se volvió rápida, barata y fácil de construir. La IA seguirá el mismo camino. El problema es que la IA de hoy está muy lejos de ese camino. Cuando le haces una pregunta a la IA, apoya su barbilla en su mano y piensa por un tiempo. Los asistentes de codificación miran en blanco durante minutos antes de dar una respuesta, rompiendo tu flujo. Incluso cuando se necesitan respuestas en un abrir y cerrar de ojos, lo único que obtienes es una respuesta pausada. Hablar con la IA sigue siendo como hacer una llamada internacional. Habla, espera, espera un poco más. Esta latencia es la pared entre los humanos y la IA.
El problema de costos es peor. Ejecutar la IA de hoy exige un equipo y capital enormes. Pilas de HBM, I/O compleja, cables, refrigeración líquida, empaquetado avanzado, apilamiento 3D. ¿Por qué es todo esto necesario? Porque el lugar que recuerda y el lugar que piensa están separados.
Piénsalo de esta manera. Tu cerebro está en Seúl, pero todos tus recuerdos están almacenados en un almacén en Busan. Cada vez que necesitas recordar algo, tienes que tomar el KTX a Busan para recuperarlo. El hardware moderno de IA tiene exactamente esta estructura. La memoria (DRAM) es grande y barata, pero está fuera del chip, haciendo que el acceso sea miles de veces más lento que la memoria en el chip. Y no puedes poner DRAM dentro del chip de cómputo tampoco: los procesos de fabricación son fundamentalmente diferentes. Esta contradicción crea toda la complejidad en el hardware de IA. Para reducir el viaje de ida y vuelta de Seúl a Busan, colocamos HBM como un tren de alta velocidad, construimos apilamiento 3D como rascacielos y ejecutamos refrigeración líquida como un aire acondicionado masivo. Naturalmente, el consumo de energía se dispara y los costos se disparan.
Taalas dio la vuelta a esto desde cero. En lugar de buscar recuerdos en Busan, los plantaron directamente dentro del cerebro. Unificaron la memoria y el cómputo en un solo chip a una densidad a nivel de DRAM. Luego dieron un paso más: construyendo silicio dedicado para cada modelo. No de estantería, sino a medida. A lo largo de la historia de la computación, la especialización profunda siempre ha sido el camino más seguro hacia la eficiencia extrema. Taalas llevó ese principio a su límite absoluto.
¿Cómo es esto posible? Graban el conocimiento aprendido del modelo —sus pesos— directamente en las capas metálicas de silicio. Inteligencia, literalmente esculpida en piedra. Un solo transistor sostiene un peso mientras realiza multiplicaciones simultáneamente. Recuerda y piensa al mismo tiempo. En palabras del fundador Ljubisa Bajic, esto "no es física nuclear, es un truco inteligente que nadie vio porque nadie siguió este camino." Mantienen el esqueleto del chip intacto y solo intercambian dos capas metálicas para personalizarlo para un modelo específico. Diferentes tatuajes en el mismo cuerpo. En el proceso de 6nm de TSMC, se tarda dos meses desde los pesos del modelo hasta una tarjeta funcional.
El chip HC1, con Llama 3.1 8B esculpido en su silicio, procesa aproximadamente 17,000 tokens por segundo por usuario. El H200 de Nvidia hace 230, el B200 hace 353, Groq 594, SambaNova 932, Cerebras 1,981. Todos los demás están montando bicicletas. Taalas tomó un jet. Una tarjeta consume 200 vatios. Diez tarjetas en un servidor, 2,500 vatios. Un ventilador es suficiente. Se conecta directamente a cualquier centro de datos construido en los últimos treinta años. Costo de fabricación: una vigésima parte. Energía: una décima parte. Sin HBM, sin empaquetado avanzado, sin apilamiento 3D, sin refrigeración líquida.
Nada es gratis, por supuesto. Si una GPU de propósito general es un altavoz que puede reproducir cualquier canción, un chip Taalas es una caja de música que reproduce una melodía a la perfección. No es inteligente, y cuando el modelo cambia, necesitas un nuevo chip. Pero el tamaño del contexto es ajustable, y el ajuste fino de LoRA funciona.
Y crucialmente, el umbral en el que los modelos se vuelven suficientes para tareas cotidianas se está acercando. Si los modelos de frontera avanzan un poco más, entraremos en un período donde un solo modelo sirve para trabajos rutinarios durante bastante tiempo. Ese es el momento en que la economía de una caja de música dedicada se sostiene.
Nvidia adquirió Groq por 20 mil millones de dólares, SoftBank se tragó a Graphcore, Intel alcanzó a SambaNova. Una ola masiva hacia silicio específico para inferencia se está formando en este momento. Taalas se encuentra en su borde más radical. El primer producto comienza con Llama esculpido en silicio, seguido de un modelo de razonamiento de tamaño mediano en primavera y un modelo de frontera para invierno.
...

Parte superior
Clasificación
Favoritos
