Prezentarea reziduurilor de atenție: Regândirea agregării în profunzime. Conexiunile reziduale s-au bazat mult timp pe acumulare fixă și uniformă. Inspirați de dualitatea timpului și adâncimii, introducem Reziduurile Atenției, înlocuind recurența standard pe profunzime cu atenție învățată, dependentă de input, peste straturile anterioare. 🔹 Permite rețelelor să recupereze selectiv reprezentările trecute, atenuând în mod natural diluarea și creșterea stării ascunse. 🔹 Introduce Block AttnRes, partiționarea straturilor în blocuri comprimate pentru a face atenția la straturi transversale practică la scară largă. 🔹 Servește ca înlocuitor eficient drop-in, demonstrând un avantaj de calcul de 1,25x cu un overhead neglijabil (<2%) de latență de inferență. 🔹 Validat pe arhitectura liniară Kimi (48B total, 3B parametri activați), oferind câștiguri constante de performanță downstream. 🔗Raport complet:
Experimentele privind legea scalării arată un avantaj constant de calcul de 1,25× la diferite dimensiuni ale modelelor.
Analiza dinamicii antrenamentului demonstrează cum AttnRes atenuează în mod natural creșterea magnitudinii în starea ascunsă și oferă o distribuție a gradientului mai uniformă pe adâncime.
93