Mamba-sarjan uusin malli on vihdoin täällä 🐍 Hybridimallit ovat kasvattaneet suosiotaan, mikä korostaa seuraavan sukupolven lineaaristen mallien suunnittelun merkitystä. Olemme tuoneet esiin useita SSM-keskeisiä ideoita, joilla Mamba-2:n mallinnuskykyjä voidaan merkittävästi lisätä tinkimättä nopeudesta. Tuloksena syntynyt Mamba-3-malli parantaa suorituskyvyn selkeitä verrattuna suosituimpiin aiempiin lineaarisiin malleihin (kuten Mamba-2 ja Gated DeltaNet) kaikissa kooissa. Tämä on ensimmäinen Mamba, jota opiskelija veti: kaikki kunnia @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, ja tietenkin @tri_dao!