Dites bonjour à l'Attention Autonome Exclusive (XSA), une amélioration (presque) gratuite des Transformers pour LM. Observation : pour y = attn(q, k, v), yᵢ et vᵢ ont tendance à avoir une très haute similarité cosinus. Correction : exclure vᵢ de yᵢ via zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Résultat : meilleure perte d'entraînement/validation à travers les tailles de modèle ; gains croissants à mesure que la longueur de la séquence augmente. Voir plus :