Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Banger rapport van het Kimi-team: Attention Residuals
Residualverbindingen maken diepe Transformers trainbaar.
Maar ze dwingen ook ongecontroleerde groei van verborgen toestanden met diepte.
Dit werk stelt een schoner alternatief voor.
Het introduceert Attention Residuals, die vaste residualaccumulatie vervangen door softmax-aandacht over de uitvoer van eerdere lagen.
In plaats van alles blindelings op te tellen, haalt elke laag selectief de eerdere representaties op die het daadwerkelijk nodig heeft.
Om dit praktisch te houden op schaal, voegen ze een blokgewijze versie toe die lagen samenvoegt in bloksamenvattingen, waarbij de meeste voordelen worden hersteld met minimale systeemoverhead.
Waarom is dit belangrijk?
Residualpaden zijn nauwelijks veranderd in moderne LLM's, hoewel ze bepalen hoe informatie door de diepte beweegt.
Dit artikel toont aan dat het maken van de mix inhoudsafhankelijk de schaalwetten verbetert, overeenkomt met een baseline die is getraind met 1,25x meer rekencapaciteit, GPQA-Diamond met +7,5 verhoogt en HumanEval met +3,1, terwijl de inferentieoverhead onder de 2% blijft.
Paper:
Leer effectieve AI-agenten te bouwen in onze academie:

Boven
Positie
Favorieten
