Banger-rapport fra Kimi-teamet: Oppmerksomhet Residuals Residualforbindelser gjorde dype Transformers trenbare. Men de tvinger også frem ukontrollert vekst i skjult tilstand med dybde. Dette arbeidet foreslår et renere alternativ. Den introduserer Attention Residuals, som erstatter fast residual akkumulering med softmax attention over tidligere lagutganger. I stedet for å summere alt blindt, henter hvert lag selektivt de tidligere representasjonene det faktisk trenger. For å holde dette praktisk i stor skala, legger de til en blokkversjon som komprimerer lag til blokkoppsummeringer, og gjenoppretter de fleste gevinstene med minimal systemoverhead. Hvorfor spiller det noen rolle? Residualbaner har knapt endret seg i moderne LLM-er, selv om de styrer hvordan informasjon beveger seg gjennom dybden. Denne artikkelen viser at det å gjøre blandingsinnholdet avhengig forbedrer skaleringslovene, matcher en baseline trent med 1,25 ganger mer beregning, øker GPQA-Diamond med +7,5 og HumanEval med +3,1, samtidig som inferensoverhead holdes under 2 %. Artikkel: Lær å bygge effektive AI-agenter i vår akademi: