Pracowałem nad nowym algorytmem wnioskowania LLM. Nazywa się Speculative Speculative Decoding (SSD) i jest do 2 razy szybszy niż najsilniejsze silniki wnioskowania na świecie. Współpraca z @tri_dao @avnermay. Szczegóły w wątku.