Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cada modelo de base que has utilizado tiene el mismo error. Acaba de ser corregido.
Desde 2015, cada red profunda se ha construido de la misma manera: cada capa realiza algún cálculo, añade su resultado a un total acumulado y lo pasa hacia adelante.
Sencillo. Pero hay un problema, para la capa 100, la señal de cualquier capa individual está enterrada bajo la suma de todo lo demás.
Cada nueva capa importa menos y menos.
Nadie corrigió esto porque funcionaba lo suficientemente bien.
Moonshot AI acaba de cambiar eso. Su nuevo método, Attention Residuals, permite que cada capa mire hacia atrás a todas las capas anteriores y elija cuáles realmente importan en este momento.
En lugar de un total acumulado ciego, obtienes una recuperación selectiva.
La analogía: imagina escribir un ensayo donde cada borrador se fusiona automáticamente en un solo documento. Para el borrador 50, tus últimas ediciones son invisibles.
AttnRes te permite mantener cada borrador separado y extraer de los que necesites.
Lo que esto soluciona:
1. Las capas más profundas ya no se ahogan
2. El entrenamiento se vuelve más estable en toda la red
3. El modelo utiliza su propia profundidad de manera más eficiente
Para hacerlo práctico a gran escala, agrupan capas en bloques y asisten sobre resúmenes de bloques en lugar de cada capa individual.
Sobrecarga en inferencia: menos del 2%.
El resultado:
25% menos computación para alcanzar el mismo rendimiento. Probado en un modelo de 48B parámetros. Se mantiene en todos los tamaños....
Parte superior
Clasificación
Favoritos
