Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pozdravte Exclusive Self Attention (XSA), což je (téměř) bezplatné vylepšení Transformers pro LM.
Pozorování: pro y = attn(q, k, v) mají yi a vi tendenci mít velmi vysokou kosinusovou podobnost
Oprava: vyloučit vi z yi přes zi = yi - (yiTvi)vi/‖vi‖²
Výsledek: lepší ztráta trénování/hodnoty napříč velikostmi modelů; zvyšující se zisky s rostoucí délkou sekvence.
Více informací:

Top
Hodnocení
Oblíbené
