Поздоровайтесь с Эксклюзивным Самовниманием (XSA), (почти) бесплатным улучшением для Трансформеров в LM. Наблюдение: для y = attn(q, k, v), yᵢ и vᵢ, как правило, имеют очень высокую косинусную схожесть. Исправление: исключите vᵢ из yᵢ через zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Результат: лучшее значение потерь на обучении/валидации для различных размеров модели; увеличение прироста по мере роста длины последовательности. Смотрите больше: