Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Introduktion till uppmärksamhetsresidualer: Ompröva djup-aggregering.
Kvarvarande kopplingar har länge förlitat sig på fast, jämn ackumulering. Inspirerade av dualiteten mellan tid och djup introducerar vi uppmärksamhetsresidualer, som ersätter standard djupvis återkomst med inlärd, inputberoende uppmärksamhet över föregående lager.
🔹 Gör det möjligt för nätverk att selektivt hämta tidigare representationer, vilket naturligt mildrar utspädning och tillväxt av dolda tillstånd.
🔹 Introducerar Block AttnRes, som delar upp lager i komprimerade block för att göra korslageruppmärksamhet praktisk i stor skala.
🔹 Fungerar som en effektiv drop-in-ersättning och visar en beräkningsfördel på 1,25x med försumbar (<2 %) inferenslatensöverhead.
🔹 Validerad på Kimi Linear-arkitekturen (totalt 48 B, 3 B aktiverade parametrar), vilket ger konsekventa prestandavinster nedströms.
🔗Fullständig rapport:

Skalningslagsexperiment visar en konsekvent beräkningsfördel på 1,25 × över olika modellstorlekar.

Analys av träningsdynamik visar hur AttnRes naturligt mildrar tillväxten av dolda tillstånds magnitud och ger en mer jämn gradientfördelning över djupet.

137
Topp
Rankning
Favoriter
