Alibaba envió cuatro modelos pequeños Qwen 3.5 con un truco tomado de su modelo 397B: atención híbrida Gated DeltaNet. Tres capas de atención lineal por cada una de atención completa. Las capas lineales manejan cálculos rutinarios con uso de memoria constante. Las capas de atención completa se activan solo cuando la precisión importa. Esta relación de 3:1 mantiene la memoria plana mientras la calidad se mantiene alta, razón por la cual incluso el modelo de 0.8B soporta una ventana de contexto de 262,000 tokens. Cada modelo maneja texto, imágenes y video de forma nativa. Sin adaptador añadido después. El codificador de visión utiliza convoluciones 3D para capturar el movimiento en video, luego fusiona características de múltiples capas en lugar de solo la final. El 9B supera a GPT-5-Nano por 13 puntos en comprensión multimodal, 17 puntos en matemáticas visuales y 30 puntos en análisis de documentos. El 0.8B funciona en un teléfono y procesa video. El 4B cabe en 8GB de VRAM y actúa como un agente multimodal. Los cuatro son Apache 2.0. Si esta arquitectura se mantiene, el espacio de modelos pequeños acaba de convertirse en una carrera de capacidades en lugar de una carrera de tamaño. Hace un año, ejecutar un modelo multimodal localmente significaba un modelo de 13B+ y una GPU seria. Ahora un modelo de 4B con 262K de contexto maneja texto, imágenes y video desde hardware de consumo. La brecha entre los modelos de borde y los modelos insignia se está cerrando más rápido que la brecha entre los insignia y los humanos.