Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentando los residuos de atención: Replanteando la agregación en profundidad.
Las conexiones residuales han dependido durante mucho tiempo de una acumulación fija y uniforme. Inspirados por la dualidad de tiempo y profundidad, introducimos los Residuos de Atención, sustituyendo la recurrencia estándar en profundidad por una atención aprendida y dependiente de la entrada sobre capas anteriores.
🔹 Permite a las redes recuperar selectivamente representaciones pasadas, mitigando de forma natural la dilución y el crecimiento de estados ocultos.
🔹 Introduce Block AttnRes, particionando capas en bloques comprimidos para hacer práctica la atención entre capas a gran escala.
🔹 Sirve como un reemplazo efectivo y directo, demostrando una ventaja de cómputo de 1,25x con una sobrecarga de latencia de inferencia despreciable (<2%).
🔹 Validado en la arquitectura lineal Kimi (48B totales, 3B parámetros activados), proporcionando mejoras de rendimiento constantes aguas abajo.
🔗Informe completo:

Los experimentos de leyes de escalado revelan una ventaja de cálculo consistente del 1,25× entre diferentes tamaños de modelo.

El análisis de la dinámica del entrenamiento demuestra cómo AttnRes mitiga naturalmente el crecimiento de magnitudes en estado oculto y produce una distribución de gradientes más uniforme a lo largo de la profundidad.

447
Populares
Ranking
Favoritas
