Przywitajcie Ekskluzywną Samoobserwację (XSA), (prawie) darmową poprawę dla Transformerów w LM. Obserwacja: dla y = attn(q, k, v), yᵢ i vᵢ mają tendencję do bardzo wysokiej podobieństwa kosinusowego. Rozwiązanie: wyklucz vᵢ z yᵢ poprzez zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Wynik: lepsza strata treningowa/walidacyjna w różnych rozmiarach modeli; rosnące zyski w miarę wydłużania się sekwencji. Zobacz więcej: