阿里巴巴運送了四個 Qwen 3.5 小型模型,借用了他們 397B 模型的一個技巧:Gated DeltaNet 混合注意力。 每一層全注意力對應三層線性注意力。 線性層處理常規計算,使用固定的記憶體。全注意力層僅在精度重要時啟動。 這種 3:1 的比例保持了記憶體平坦,同時質量保持高,因此即使是 0.8B 模型也支持 262,000 令牌的上下文窗口。 每個模型原生處理文本、圖像和視頻。 沒有後期加裝的適配器。視覺編碼器使用 3D 卷積來捕捉視頻中的運動,然後合併來自多層的特徵,而不僅僅是最終一層。 9B 在多模態理解上比 GPT-5-Nano 高出 13 分,在視覺數學上高出 17 分,在文檔解析上高出 30 分。0.8B 可以在手機上運行並處理視頻。4B 適合 8GB 的 VRAM,並作為多模態代理。所有四個都是 Apache 2.0。 如果這種架構成立,小型模型空間剛剛變成了一場能力競賽,而不是規模競賽。 一年前,當地運行多模態模型意味著需要 13B+ 模型和一個強大的 GPU。 現在,4B 模型配備 262K 上下文,能夠處理來自消費硬體的文本、圖像和視頻。 邊緣模型和旗艦模型之間的差距正在比旗艦模型和人類之間的差距縮小得更快。