Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apresentando Résidus de Atenção: Repensando a agregação em profundidade.
Conexões residuais há muito dependem de acúmulo fixo e uniforme. Inspirados pela dualidade de tempo e profundidade, introduzimos os Resíduos de Atenção, substituindo a recorrência padrão em profundidade por atenção aprendida e dependente de entrada sobre camadas anteriores.
🔹 Permite que redes recuperem seletivamente representações passadas, mitigando naturalmente a diluição e o crescimento do estado oculto.
🔹 Introduz o Block AttnRes, particionando camadas em blocos comprimidos para tornar a atenção entre camadas prática em larga escala.
🔹 Serve como uma substituição eficiente de entrada, demonstrando uma vantagem computacional de 1,25x com overhead de latência de inferência desprezível (<2%).
🔹 Validado na arquitetura Kimi Linear (48B no total, 3B parâmetros ativados), proporcionando ganhos consistentes de desempenho a jusante.
🔗Relatório completo:

Experimentos com leis de escalonamento revelam uma vantagem computacional consistente de 1,25× entre diferentes tamanhos de modelo.

A análise da dinâmica do treinamento demonstra como o AttnRes naturalmente mitiga o crescimento de magnitude em estado oculto e produz uma distribuição de gradiente mais uniforme ao longo da profundidade.

454
Melhores
Classificação
Favoritos
