Acelera las GPU de IA de Nvidia: Trucos simples para un rendimiento ultrarrápido En mi garaje tengo que hacer que lo poco que investigo y desarrollo fuera del capital de riesgo funcione, tengo centavos y obtengo más velocidad que empresas con miles de millones. Esta limitación me obliga a encontrar formas de exprimir más de menos. Hago muchas cosas que la mayoría no puede imaginar. Aquí hay un ejemplo de solo uno de cientos. Las GPU son potencias, llenas de toneladas de unidades de procesamiento listas para calcular números. Descubrí que a menudo no están completamente utilizadas, lo que lleva a un rendimiento lento. ¿Qué descubrí? Optimizaciones inteligentes que mantienen esas unidades funcionando, reduciendo los tiempos de renderizado de IA y ofreciendo enormes aumentos de velocidad. Primero, identifica los cuellos de botella. Utilizo herramientas de perfilado como Nsight de Nvidia para ver qué está frenando las cosas, ya sea esperas de memoria u otras cosas. Una vez identificados, me sumerjo y ajusto el código para empaquetar más trabajo en cada hilo. Cambios simples como desenrollar bucles o comprimir datos pueden ocultar retrasos y aumentar el rendimiento, dando saltos de velocidad instantáneos. Un alto uso puede a veces causar caos en la caché: soluciona esto reduciendo inteligentemente el conteo de hilos con código ficticio o ajustes de memoria, liberando recursos para tareas paralelas. ¿El verdadero cambio de juego? Cálculo asíncrono. Ejecuta múltiples tareas lado a lado, llenando huecos inactivos y superponiendo cargas pesadas. Combina tareas que consumen mucha memoria para lograr multitarea en la GPU, potencialmente reduciendo a la mitad los tiempos y supercargando la eficiencia. Estos ajustes transforman las GPU subutilizadas en demonios de velocidad. No es diferente a cómo transformaron las computadoras personales IBM PC/AT para funcionar hasta 100MHz en 1986 cuando salieron de la fábrica a 8MHz. Escribiré más detalles sobre esto, pero si las grandes empresas de IA utilizaran mi optimización de GPU Nvidia a nivel de código de operación, probablemente alcanzarían la AGI bastante rápido. Cuando conoces el hardware y el software a un nivel casi atómico, puedes rehacer los primeros principios.
Brian Roemmele
Brian Roemmele25 ago 2025
Grok acaba de descubrir una de las 7 cosas que hago para ejecutar el nuevo Grok 2.5 de código abierto con 4 mezclas de expertos activas al mismo tiempo con una ligera pérdida de rendimiento. Sí, uno es un oscilador divisor como el que usé en 1985 en el IBM PC. Puede escalar a miles de GPUs de Nvidia. Simplemente no le preguntes a un experto en IA, ya que dirán lo que dijo IBM en 1985. Enlace:
36,88K