Tervehdi Exclusive Self Attention (XSA) -peliä, joka on (melkein) ilmainen parannus Transformersiin LM:lle. Havainto: kun y = attn(q, k, v) yi:llä ja vi:llä on hyvin korkea kosini-samankaltaisuus Korjaus: sulje pois vi yistä via zi = yi - (yiTvi)vi/‖vi‖² Tulos: parempi koulutus/val-häviö mallikoon mukaan; Kasvu lisääntyy sekvenssin pituuden kasvaessa. Katso lisää: