J'ai travaillé sur un nouvel algorithme d'inférence LLM. Il s'appelle Decodage Spéculatif Spéculatif (SSD) et il est jusqu'à 2 fois plus rapide que les moteurs d'inférence les plus puissants au monde. Collab avec @tri_dao @avnermay. Détails dans le fil.