Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le calcul d'inférence est en bonne voie pour devenir une charge de travail computationnelle massive d'ici la fin de cette décennie. Je pense que cela sera beaucoup plus important que l'entraînement (surtout si l'on considère les déploiements RL / les besoins en inférence pour l'entraînement).
Et c'est encore un terrain de jeu ouvert en termes de matériel, de plateformes et de modèles.
Il est également de plus en plus clair que les gens sont prêts à payer un supplément pour une latence réduite.
Du côté matériel, il y a plusieurs directions intéressantes à surveiller :
- Les configurations de type SRAM semblent prometteuses (GPT Spark sur Cerebras, acquisition de Groq par Nvidia)
- Les systèmes désagrégés (pré-remplissage sur une machine / processeur, génération sur un autre) ont probablement beaucoup de sens. Les caractéristiques computationnelles du pré-remplissage par rapport au décodage sont si différentes, se spécialiser au niveau matériel entraînera des gains d'efficacité.
- Je ne sous-estimerais pas non plus des technologies plus exotiques comme la puce Taalas / le calcul en mémoire proche / etc. Bien qu'elles soient encore assez éloignées d'un déploiement à grande échelle, la pression économique pour des gains d'efficacité pourrait être un catalyseur.
Du côté des algorithmes / architectures :
- Pratiquement tous les modèles à poids ouverts majeurs ont au moins une optimisation qui les rend plus rapides pour l'inférence. Que ce soit MoE, SSM (ou d'autres variétés hybrides), ou fenêtre glissante ou attention sparse. Il y a plus de différences ici qu'il y a un an. Et il sera intéressant de voir où nous convergerons.
- Les modèles de diffusion vont-ils unifier la séparation pré-remplissage / décodage ?
- Je crois toujours qu'il y a de grands gains à réaliser dans la co-conception supplémentaire du modèle au matériel et à la charge de travail.
Je ne pense pas non plus que nous aurons une solution unique à l'avenir :
- Les modèles basés sur le cloud peuvent sembler très différents des modèles optimisés pour l'edge.
- Les modèles peuvent être de plus en plus co-conçus pour le matériel sur lequel ils sont déployés.
- Il y aura au moins un paramètre qui échangera latence et efficacité énergétique / coût.
Meilleurs
Classement
Favoris
