Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El cálculo de inferencia está en camino de convertirse en una carga de trabajo computacional masiva para finales de esta década. Creo que será mucho más grande que la formación (especialmente si consideras los despliegues de RL / las necesidades de inferencia para la formación).
Y sigue siendo un campo abierto en cuanto al hardware, las plataformas y los modelos.
También está cada vez más claro que la gente está dispuesta a pagar un precio premium por una latencia reducida.
En cuanto al hardware, hay varias indicaciones interesantes a seguir:
- Los sistemas de estilo SRAM parecen prometedores (GPT Spark en Cerebras, adquisición de Groq por Nvidia)
- Los sistemas desagregados (prellenado en una máquina o procesador, generación en otra) probablemente tengan mucho sentido. Las características computacionales de prellenado frente a decodificación son tan diferentes que especializarse a nivel de hardware generará ganancias de eficiencia
- Tampoco descartaría tecnologías más exóticas como el chip Taalas / computación de memoria cercana / etc. Aunque aún están bastante lejos de un despliegue a gran escala, la presión económica para ganar eficiencia podría ser un catalizador
En cuanto al algoritmo / arquitectura:
- Prácticamente todos los grandes modelos de pesos abiertos tienen al menos una optimización, lo que hace que la inferencia sea más rápida. Ya sea MoE, SSM (u otra variedad híbrida), ventana corredera o poca atención. Aquí hay más diferencias que hace un año. Y será interesante ver dónde convergemos.
- ¿Unificarán los modelos de difusión la división de prellenado / decodificación?
- Seguir creyendo que hay grandes avances en el co-diseño de modelo, hardware y carga de trabajo
Tampoco creo que en el futuro tengamos una solución única para todos:
- Los modelos basados en la nube pueden verse muy diferentes de los modelos optimizados para edge
- Los modelos pueden estar cada vez más co-diseñados para el hardware en el que se despliegan
- Habrá al menos una perilla que compensa latencia y eficiencia energética / coste.
Populares
Ranking
Favoritas
