Het nieuwste model in de Mamba-serie is eindelijk hier 🐍 Hybride modellen zijn steeds populairder geworden, wat het belang van het ontwerpen van de volgende generatie lineaire modellen vergroot. We hebben verschillende SSM-centrische ideeën geïntroduceerd om de modelleringscapaciteiten van Mamba-2 aanzienlijk te vergroten zonder in te boeten op snelheid. Het resulterende Mamba-3 model heeft merkbare prestatieverbeteringen ten opzichte van de meest populaire eerdere lineaire modellen (zoals Mamba-2 en Gated DeltaNet) in alle formaten. Dit is de eerste Mamba die door studenten is geleid: alle eer gaat naar @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, en natuurlijk @tri_dao!