Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przywitajcie Ekskluzywną Samoobserwację (XSA), (prawie) darmową poprawę dla Transformerów w LM.
Obserwacja: dla y = attn(q, k, v), yᵢ i vᵢ mają tendencję do bardzo wysokiej podobieństwa kosinusowego.
Rozwiązanie: wyklucz vᵢ z yᵢ poprzez zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖²
Wynik: lepsza strata treningowa/walidacyjna w różnych rozmiarach modeli; rosnące zyski w miarę wydłużania się sekwencji.
Zobacz więcej:

Najlepsze
Ranking
Ulubione
