阿里巴巴发货了四个 Qwen 3.5 小模型,借鉴了他们的 397B 模型中的一个技巧:Gated DeltaNet 混合注意力。 每一层全注意力对应三层线性注意力。 线性层处理常规计算,内存使用保持不变。全注意力层仅在精度重要时才会激活。 这种 3:1 的比例保持了内存平稳,同时质量保持高,这就是为什么即使是 0.8B 模型也支持 262,000 个标记的上下文窗口。 每个模型原生处理文本、图像和视频。 没有后期加装的适配器。视觉编码器使用 3D 卷积捕捉视频中的运动,然后合并来自多个层的特征,而不仅仅是最后一层。 9B 在多模态理解上比 GPT-5-Nano 高出 13 分,在视觉数学上高出 17 分,在文档解析上高出 30 分。0.8B 可以在手机上运行并处理视频。4B 适合 8GB 的 VRAM,并充当多模态代理。所有四个都是 Apache 2.0。 如果这种架构成立,小模型空间刚刚变成了一场能力竞赛,而不是规模竞赛。 一年前,本地运行多模态模型意味着需要一个 13B+ 的模型和一块强大的 GPU。 现在,一个 4B 模型配合 262K 上下文可以处理来自消费硬件的文本、图像和视频。 边缘模型与旗舰模型之间的差距正在比旗舰模型与人类之间的差距缩小得更快。