Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dê um oi ao Exclusive Self Attention (XSA), uma melhoria (quase) gratuita para Transformers para LM.
Observação: para y = attn(q, k, v), yi e vi tendem a ter uma semelhança cosseno muito alta
Correção: excluir vi de yi via zi = yi - (yiTvi)vi/‖vi‖²
Resultado: melhor treinamento/perda de val em todos os tamanhos dos modelos; ganhos crescentes à medida que o comprimento da sequência cresce.
Veja mais:

Melhores
Classificação
Favoritos
