Tenho trabalhado em um novo algoritmo de inferência para LLM. Chama-se Decodificação Especulativa e Especulativa (SSD) e é até duas vezes mais rápido que os motores de inferência mais potentes do mundo. Colaboração com @tri_dao @avnermay. Detalhes no tópico.