Den nyeste modellen i Mamba-serien er endelig her 🐍 Hybridmodeller har blitt stadig mer populære, noe som øker viktigheten av å designe neste generasjon lineære modeller. Vi har introdusert flere SSM-sentrerte ideer for å øke Mamba-2s modelleringskapasitet betydelig uten å gå på kompromiss med hastigheten. Den resulterende Mamba-3-modellen har merkbare ytelsesforbedringer sammenlignet med de mest populære tidligere lineære modellene (som Mamba-2 og Gated DeltaNet) i alle størrelser. Dette er den første Mambaen som ble ledet av elever: all ære til @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, og selvfølgelig @tri_dao!