Я работал над новым алгоритмом вывода LLM. Он называется Спекулятивное Спекулятивное Декодирование (SSD) и в 2 раза быстрее, чем самые мощные движки вывода в мире. Сотрудничество с @tri_dao @avnermay. Подробности в теме.