Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apresentando 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Repensando a agregação em profundidade.
As conexões residuais há muito dependem de acumulação fixa e uniforme. Inspirados pela dualidade do tempo e da profundidade, apresentamos os Attention Residuals, substituindo a recorrência padrão em profundidade por atenção aprendida, dependente da entrada, sobre as camadas anteriores.
🔹 Permite que as redes recuperem seletivamente representações passadas, mitigando naturalmente a diluição e o crescimento do estado oculto.
🔹 Introduz o Block AttnRes, particionando camadas em blocos comprimidos para tornar a atenção entre camadas prática em grande escala.
🔹 Serve como um substituto eficiente, demonstrando uma vantagem de computação de 1.25x com uma sobrecarga de latência de inferência negligenciável (<2%).
🔹 Validado na arquitetura Kimi Linear (48B no total, 3B de parâmetros ativados), proporcionando ganhos consistentes de desempenho a jusante.
🔗Relatório completo:

Experimentos de lei de escalabilidade revelam uma vantagem consistente de 1,25× em computação em diferentes tamanhos de modelo.

A análise da dinâmica de treino demonstra como o AttnRes mitiga naturalmente o crescimento da magnitude do estado oculto e produz uma distribuição de gradiente mais uniforme ao longo da profundidade.

157
Top
Classificação
Favoritos
