Säg hej till Exclusive Self Attention (XSA), en (nästan) gratis förbättring av Transformers för LM. Observation: för y = attn(q, k, v) tenderar yi och vi att ha mycket hög cosinuslikhet Fix: exkludera vi från yi via zi = yi - (yiTvi)vi/‖vi‖² Resultat: bättre träning/valförlust över modellstorlekar; ökar vinsterna i takt med att sekvenslängden ökar. Se mer: