Diga olá ao Exclusive Self Attention (XSA), uma melhoria (quase) gratuita para Transformers para LM. Observação: para y = attn(q, k, v), yᵢ e vᵢ tendem a ter uma similaridade cosseno muito alta. Correção: excluir vᵢ de yᵢ via zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Resultado: melhor perda de treino/validação em tamanhos de modelo; ganhos crescentes à medida que o comprimento da sequência aumenta. Veja mais: