Chào mừng đến với Attention Tự Chọn Lọc Độc Quyền (XSA), một cải tiến (hầu như) miễn phí cho Transformers trong LM. Quan sát: đối với y = attn(q, k, v), yᵢ và vᵢ có xu hướng có độ tương đồng cosine rất cao Giải pháp: loại trừ vᵢ khỏi yᵢ thông qua zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Kết quả: giảm thiểu tổn thất huấn luyện/val tốt hơn trên các kích thước mô hình; lợi ích tăng lên khi độ dài chuỗi tăng.