🚀 Temui HySparse: Terobosan baru kami dalam efisiensi LLM konteks panjang! Kami sangat senang untuk membagikan HySparse (Hybrid Sparse Attention)—arsitektur model hibrida yang menyilingkan setiap lapisan perhatian penuh dengan beberapa lapisan perhatian jarang, di mana lapisan jarang secara strategis memperoleh pemilihan token penting dan cache KV dari lapisan penuh sebelumnya! 📖 Tautan kertas: