Новая модель в серии Mamba наконец-то здесь 🐍 Гибридные модели становятся все более популярными, что подчеркивает важность разработки следующего поколения линейных моделей. Мы представили несколько идей, сосредоточенных на SSM, чтобы значительно увеличить возможности моделирования Mamba-2, не жертвуя скоростью. В результате модель Mamba-3 демонстрирует заметные улучшения производительности по сравнению с самыми популярными предыдущими линейными моделями (такими как Mamba-2 и Gated DeltaNet) во всех размерах. Это первая Mamba, которая была разработана студентами: вся заслуга @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9 и, конечно, @tri_dao!