Presentando los residuos de atención: Replanteando la agregación en profundidad. Las conexiones residuales han dependido durante mucho tiempo de una acumulación fija y uniforme. Inspirados por la dualidad de tiempo y profundidad, introducimos los Residuos de Atención, sustituyendo la recurrencia estándar en profundidad por una atención aprendida y dependiente de la entrada sobre capas anteriores. 🔹 Permite a las redes recuperar selectivamente representaciones pasadas, mitigando de forma natural la dilución y el crecimiento de estados ocultos. 🔹 Introduce Block AttnRes, particionando capas en bloques comprimidos para hacer práctica la atención entre capas a gran escala. 🔹 Sirve como un reemplazo efectivo y directo, demostrando una ventaja de cómputo de 1,25x con una sobrecarga de latencia de inferencia despreciable (<2%). 🔹 Validado en la arquitectura lineal Kimi (48B totales, 3B parámetros activados), proporcionando mejoras de rendimiento constantes aguas abajo. 🔗Informe completo:
Los experimentos de leyes de escalado revelan una ventaja de cálculo consistente del 1,25× entre diferentes tamaños de modelo.
El análisis de la dinámica del entrenamiento demuestra cómo AttnRes mitiga naturalmente el crecimiento de magnitudes en estado oculto y produce una distribución de gradientes más uniforme a lo largo de la profundidad.
447