Das neueste Modell der Mamba-Serie ist endlich da 🐍 Hybride Modelle sind immer beliebter geworden, was die Bedeutung der Gestaltung der nächsten Generation von linearen Modellen erhöht. Wir haben mehrere SSM-zentrierte Ideen eingeführt, um die Modellierungsfähigkeiten von Mamba-2 erheblich zu steigern, ohne die Geschwindigkeit zu beeinträchtigen. Das resultierende Mamba-3-Modell weist spürbare Leistungsgewinne gegenüber den beliebtesten vorherigen linearen Modellen (wie Mamba-2 und Gated DeltaNet) in allen Größen auf. Dies ist das erste Mamba, das von Studenten geleitet wurde: allen Dank an @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9 und natürlich @tri_dao!