DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Cada modelo de base que has utilizado tiene el mismo error. Acaba de ser corregido. Desde 2015, cada red profunda se ha construido de la misma manera: cada capa realiza algún cálculo, añade su resultado a un total acumulado y lo pasa hacia adelante. Sencillo. Pero hay un problema, para la capa 100, la señal de cualquier capa individual está enterrada bajo la suma de todo lo demás. Cada nueva capa importa menos y menos. Nadie corrigió esto porque funcionaba lo suficientemente bien. Moonshot AI acaba de cambiar eso. Su nuevo método, Attention Residuals, permite que cada capa mire hacia atrás a todas las capas anteriores y elija cuáles realmente importan en este momento. En lugar de un total acumulado ciego, obtienes una recuperación selectiva. La analogía: imagina escribir un ensayo donde cada borrador se fusiona automáticamente en un solo documento. Para el borrador 50, tus últimas ediciones son invisibles. AttnRes te permite mantener cada borrador separado y extraer de los que necesites. Lo que esto soluciona: 1. Las capas más profundas ya no se ahogan 2. El entrenamiento se vuelve más estable en toda la red 3. El modelo utiliza su propia profundidad de manera más eficiente Para hacerlo práctico a gran escala, agrupan capas en bloques y asisten sobre resúmenes de bloques en lugar de cada capa individual. Sobrecarga en inferencia: menos del 2%. El resultado: 25% menos computación para alcanzar el mismo rendimiento. Probado en un modelo de 48B parámetros. Se mantiene en todos los tamaños....

Parte superior

Clasificación

Favoritos