Estive a trabalhar num novo algoritmo de inferência LLM. Chama-se Decodificação Especulativa Especulativa (SSD) e é até 2x mais rápido do que os motores de inferência mais poderosos do mundo. Colaboração com @tri_dao @avnermay. Detalhes no tópico.