He estado trabajando en un nuevo algoritmo de inferencia para LLM. Se llama Decodificación Especulativa Especulativa (SSD) y es hasta el doble de rápida que los motores de inferencia más potentes del mundo. Colaboración con @tri_dao @avnermay. Detalles en el hilo.