Zeg hallo tegen Exclusive Self Attention (XSA), een (bijna) gratis verbetering voor Transformers voor LM. Observatie: voor y = attn(q, k, v), hebben yᵢ en vᵢ de neiging om een zeer hoge cosinusovereenstemming te hebben. Oplossing: sluit vᵢ uit van yᵢ via zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Resultaat: betere training/val verlies over modelgroottes; toenemende winsten naarmate de sequentielengte toeneemt. Zie meer: