DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Présentation des 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔 : Repenser l'agrégation par profondeur. Les connexions résiduelles ont longtemps reposé sur une accumulation fixe et uniforme. Inspirés par la dualité du temps et de la profondeur, nous introduisons les Attention Residuals, remplaçant la récurrence standard par profondeur par une attention apprise, dépendante de l'entrée, sur les couches précédentes. 🔹 Permet aux réseaux de récupérer sélectivement des représentations passées, atténuant naturellement la dilution et la croissance des états cachés. 🔹 Introduit Block AttnRes, partitionnant les couches en blocs compressés pour rendre l'attention inter-couches pratique à grande échelle. 🔹 Sert de remplacement efficace, démontrant un avantage de calcul de 1,25x avec un surcoût de latence d'inférence négligeable (<2%). 🔹 Validé sur l'architecture Kimi Linear (48B au total, 3B de paramètres activés), offrant des gains de performance en aval constants. 🔗Rapport complet :

Les expériences sur les lois d'échelle révèlent un avantage de calcul constant de 1,25× à travers différentes tailles de modèles.

L'analyse des dynamiques d'entraînement démontre comment AttnRes atténue naturellement la croissance de l'amplitude de l'état caché et produit une distribution de gradient plus uniforme à travers la profondeur.

304

Meilleurs

Classement

Favoris