SSM'ler uzun bağlam için verimli dil modelleme sözü verdi, ancak şu ana kadar birçok ortamda Transformers'a kıyasla düşük performans gösteriyor gibi görünüyor. Yeni çalışmamız, bunun SSM'lerle ilgili bir sorun olmadığını, ancak onları şu anda nasıl kullandığımızla ilgili olduğunu gösteriyor. Arxiv: 🧵