Ich habe an einem neuen LLM-Inferenzalgorithmus gearbeitet. Er heißt Spekulatives Spekulatives Decoding (SSD) und ist bis zu 2x schneller als die stärksten Inferenz-Engines der Welt. Zusammenarbeit mit @tri_dao @avnermay. Details im Thread.