Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Banger-rapport fra Kimi-teamet: Oppmerksomhet Residuals
Residualforbindelser gjorde dype Transformers trenbare.
Men de tvinger også frem ukontrollert vekst i skjult tilstand med dybde.
Dette arbeidet foreslår et renere alternativ.
Den introduserer Attention Residuals, som erstatter fast residual akkumulering med softmax attention over tidligere lagutganger.
I stedet for å summere alt blindt, henter hvert lag selektivt de tidligere representasjonene det faktisk trenger.
For å holde dette praktisk i stor skala, legger de til en blokkversjon som komprimerer lag til blokkoppsummeringer, og gjenoppretter de fleste gevinstene med minimal systemoverhead.
Hvorfor spiller det noen rolle?
Residualbaner har knapt endret seg i moderne LLM-er, selv om de styrer hvordan informasjon beveger seg gjennom dybden.
Denne artikkelen viser at det å gjøre blandingsinnholdet avhengig forbedrer skaleringslovene, matcher en baseline trent med 1,25 ganger mer beregning, øker GPQA-Diamond med +7,5 og HumanEval med +3,1, samtidig som inferensoverhead holdes under 2 %.
Artikkel:
Lær å bygge effektive AI-agenter i vår akademi:

Topp
Rangering
Favoritter
