Przedstawiamy 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Przemyślenie agregacji w głębokości. Połączenia rezydualne od dawna opierają się na stałym, jednolitym gromadzeniu. Zainspirowani dualnością czasu i głębokości, wprowadzamy Attention Residuals, zastępując standardową rekurencję w głębokości nauczoną, zależną od wejścia uwagą nad poprzednimi warstwami. 🔹 Umożliwia sieciom selektywne odzyskiwanie przeszłych reprezentacji, naturalnie łagodząc rozcieńczenie i wzrost stanu ukrytego. 🔹 Wprowadza Block AttnRes, dzieląc warstwy na skompresowane bloki, aby uczynić uwagą międzywarstwową praktyczną na dużą skalę. 🔹 Służy jako wydajny zamiennik, wykazując przewagę obliczeniową 1,25x przy znikomej (<2%) nadwyżce opóźnienia wnioskowania. 🔹 Walidowane na architekturze Kimi Linear (48B całkowitych, 3B aktywowanych parametrów), dostarczając spójne zyski w wydajności downstream. 🔗Pełny raport:
Eksperymenty z prawem skalowania ujawniają stałą przewagę obliczeniową 1,25× w różnych rozmiarach modeli.
Analiza dynamiki treningu pokazuje, jak AttnRes naturalnie łagodzi wzrost wielkości stanu ukrytego i prowadzi do bardziej jednolitego rozkładu gradientu w głębokości.
99