Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Informe impresionante del equipo de Kimi: Residuales de Atención
Las conexiones residuales hicieron que los Transformers profundos fueran entrenables.
Pero también obligan a un crecimiento incontrolado del estado oculto con la profundidad.
Este trabajo propone una alternativa más limpia.
Introduce los Residuales de Atención, que reemplazan la acumulación residual fija con atención softmax sobre las salidas de la capa anterior.
En lugar de sumar ciegamente todo, cada capa recupera selectivamente las representaciones anteriores que realmente necesita.
Para mantener esto práctico a gran escala, añaden una versión por bloques que comprime las capas en resúmenes de bloques, recuperando la mayor parte de las ganancias con un mínimo de sobrecarga del sistema.
¿Por qué es importante?
Los caminos residuales apenas han cambiado en los LLM modernos, a pesar de que gobiernan cómo se mueve la información a través de la profundidad.
Este artículo muestra que hacer que la mezcla dependa del contenido mejora las leyes de escalado, coincide con una línea base entrenada con 1.25x más computación, aumenta GPQA-Diamond en +7.5 y HumanEval en +3.1, mientras mantiene la sobrecarga de inferencia por debajo del 2%.
Artículo:
Aprende a construir agentes de IA efectivos en nuestra academia:

Parte superior
Clasificación
Favoritos
