Я працюю над новим алгоритмом виведення LLM. Це називається Спекулятивне Спекулятивне Декодування (SSD), і воно до 2 разів швидше за найпотужніші двигуни інференції у світі. Співпраця з @tri_dao @avnermay. Деталі в темі.