Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przedstawiamy 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Przemyślenie agregacji w głębokości.
Połączenia rezydualne od dawna opierają się na stałym, jednolitym gromadzeniu. Zainspirowani dualnością czasu i głębokości, wprowadzamy Attention Residuals, zastępując standardową rekurencję w głębokości nauczoną, zależną od wejścia uwagą nad poprzednimi warstwami.
🔹 Umożliwia sieciom selektywne odzyskiwanie przeszłych reprezentacji, naturalnie łagodząc rozcieńczenie i wzrost stanu ukrytego.
🔹 Wprowadza Block AttnRes, dzieląc warstwy na skompresowane bloki, aby uczynić uwagą międzywarstwową praktyczną na dużą skalę.
🔹 Służy jako wydajny zamiennik, wykazując przewagę obliczeniową 1,25x przy znikomej (<2%) nadwyżce opóźnienia wnioskowania.
🔹 Walidowane na architekturze Kimi Linear (48B całkowitych, 3B aktywowanych parametrów), dostarczając spójne zyski w wydajności downstream.
🔗Pełny raport:

Eksperymenty z prawem skalowania ujawniają stałą przewagę obliczeniową 1,25× w różnych rozmiarach modeli.

Analiza dynamiki treningu pokazuje, jak AttnRes naturalnie łagodzi wzrost wielkości stanu ukrytego i prowadzi do bardziej jednolitego rozkładu gradientu w głębokości.

99
Najlepsze
Ranking
Ulubione
