Todos los modelos de cimentación que has usado tienen el mismo fallo. Acaba de arreglarse. Desde 2015, todas las redes profundas se han construido de la misma manera: cada capa realiza algún cálculo, añade su resultado a un total continuo y lo transmite hacia adelante. Sencillo. Pero hay un problema: en la capa 100, la señal de cualquier capa individual queda enterrada bajo la suma de todo lo demás. Cada nueva capa importa cada vez menos. Nadie arregló esto porque funcionaba lo suficientemente bien. La IA de Moonshot acaba de cambiar eso. Su nuevo método, Attention Residuals, permite que cada capa revise todas las capas anteriores y elija cuáles realmente importan ahora mismo. En lugar de un total a ciegas, obtienes recuperación selectiva. La analogía: imagina escribir un ensayo donde cada borrador se fusiona automáticamente en un solo documento. Para el borrador 50, tus últimas ediciones son invisibles. AttnRes te permite mantener cada borrador separado y sacar de los que necesites. Qué soluciona esto: 1. Las capas más profundas ya no se ahogan 2. La formación se vuelve más estable en toda la red 3. El modelo utiliza su propia profundidad de forma más eficiente Para hacerlo práctico a gran escala, agrupan capas en bloques y atienden sobre resúmenes de bloques en lugar de cada capa. Sobrecarga en la inferencia: menos del 2%. El resultado: 25% menos de cálculo para alcanzar el mismo rendimiento. Probado con un modelo de 48B parámetros. Se mantiene en todas las tallas....