Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Diga olá ao Exclusive Self Attention (XSA), uma melhoria (quase) gratuita para Transformers para LM.
Observação: para y = attn(q, k, v), yᵢ e vᵢ tendem a ter uma similaridade cosseno muito alta.
Correção: excluir vᵢ de yᵢ via zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖²
Resultado: melhor perda de treino/validação em tamanhos de modelo; ganhos crescentes à medida que o comprimento da sequência aumenta.
Veja mais:

Top
Classificação
Favoritos
