🚀 ¡Conoce a HySparse: nuestro nuevo avance en eficiencia de LLM de largo plazo! Estamos entusiasmados de compartir HySparse (Atención Híbrida Escaseada)—una arquitectura de modelo híbrida que entrelaza cada capa completa de atención con múltiples capas de atención dispersas, donde las capas dispersas extraen estratégicamente la selección importante de tokens y las cachés KV de la capa completa anterior. 📖 Enlace al artículo: