Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dites bonjour à l'Attention Autonome Exclusive (XSA), une amélioration (presque) gratuite des Transformers pour LM.
Observation : pour y = attn(q, k, v), yᵢ et vᵢ ont tendance à avoir une très haute similarité cosinus.
Correction : exclure vᵢ de yᵢ via zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖²
Résultat : meilleure perte d'entraînement/validation à travers les tailles de modèle ; gains croissants à mesure que la longueur de la séquence augmente.
Voir plus :

Meilleurs
Classement
Favoris
