Model terbaru dalam seri Mamba akhirnya hadir 🐍 Model hibrida menjadi semakin populer, meningkatkan pentingnya merancang model linier generasi berikutnya. Kami telah memperkenalkan beberapa ide yang berpusat pada SSM untuk meningkatkan kemampuan pemodelan Mamba-2 secara signifikan tanpa mengorbankan kecepatan. Model Mamba-3 yang dihasilkan memiliki peningkatan kinerja yang nyata dibandingkan model linier sebelumnya yang paling populer (seperti Mamba-2 dan Gated DeltaNet) di semua ukuran. Ini adalah Mamba pertama yang dipimpin siswa: semua pujian untuk @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, dan tentu saja @tri_dao!