O modelo mais novo da série Mamba finalmente chegou 🐍 Modelos híbridos tornaram-se cada vez mais populares, aumentando a importância de projetar a próxima geração de modelos lineares. Introduzimos várias ideias centradas em SSM para aumentar significativamente as capacidades de modelagem do Mamba-2 sem comprometer a velocidade. O modelo resultante Mamba-3 apresenta ganhos de desempenho perceptíveis em relação aos modelos lineares anteriores mais populares (como Mamba-2 e Gated DeltaNet) em todos os tamanhos. Este é o primeiro Mamba liderado por estudantes: todo crédito para @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, e claro, @tri_dao!