Apresentando Résidus de Atenção: Repensando a agregação em profundidade. Conexões residuais há muito dependem de acúmulo fixo e uniforme. Inspirados pela dualidade de tempo e profundidade, introduzimos os Resíduos de Atenção, substituindo a recorrência padrão em profundidade por atenção aprendida e dependente de entrada sobre camadas anteriores. 🔹 Permite que redes recuperem seletivamente representações passadas, mitigando naturalmente a diluição e o crescimento do estado oculto. 🔹 Introduz o Block AttnRes, particionando camadas em blocos comprimidos para tornar a atenção entre camadas prática em larga escala. 🔹 Serve como uma substituição eficiente de entrada, demonstrando uma vantagem computacional de 1,25x com overhead de latência de inferência desprezível (<2%). 🔹 Validado na arquitetura Kimi Linear (48B no total, 3B parâmetros ativados), proporcionando ganhos consistentes de desempenho a jusante. 🔗Relatório completo:
Experimentos com leis de escalonamento revelam uma vantagem computacional consistente de 1,25× entre diferentes tamanhos de modelo.
A análise da dinâmica do treinamento demonstra como o AttnRes naturalmente mitiga o crescimento de magnitude em estado oculto e produz uma distribuição de gradiente mais uniforme ao longo da profundidade.
454