Dê um oi ao Exclusive Self Attention (XSA), uma melhoria (quase) gratuita para Transformers para LM. Observação: para y = attn(q, k, v), yi e vi tendem a ter uma semelhança cosseno muito alta Correção: excluir vi de yi via zi = yi - (yiTvi)vi/‖vi‖² Resultado: melhor treinamento/perda de val em todos os tamanhos dos modelos; ganhos crescentes à medida que o comprimento da sequência cresce. Veja mais: