Am lucrat la un nou algoritm de inferență LLM. Se numește Decodare Speculativă Speculativă (SSD) și este de până la de două ori mai rapid decât cele mai puternice motoare de inferență din lume. Colaborare cu @tri_dao @avnermay. Detalii în firul de discuție.