Il modello più recente della serie Mamba è finalmente qui 🐍 I modelli ibridi sono diventati sempre più popolari, aumentando l'importanza di progettare la prossima generazione di modelli lineari. Abbiamo introdotto diverse idee centrate su SSM per aumentare significativamente le capacità di modellazione di Mamba-2 senza compromettere la velocità. Il risultato è il modello Mamba-3, che presenta guadagni di prestazioni notevoli rispetto ai modelli lineari precedenti più popolari (come Mamba-2 e Gated DeltaNet) in tutte le dimensioni. Questo è il primo Mamba guidato da studenti: tutto il merito va a @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, e naturalmente a @tri_dao!