Saluda a Exclusive Self Attention (XSA), una mejora (casi) gratuita de Transformers para LM. Observación: para y = attn(q, k, v), yi y vi tienden a tener una similitud coseno muy alta Corrección: excluir vi de yi vía zi = yi - (yiTvi)vi/‖vi‖² Resultado: mejor entrenamiento/pérdida de val en diferentes tamaños de modelo; aumento a medida que la longitud de la secuencia crece. Ver más: