Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Raport de la echipa Kimi: Atenție reziduale
Conexiunile reziduale făceau Transformers adânci antrenabili.
Dar ele forțează și o creștere necontrolată a stărilor ascunse, cu profunzime.
Această lucrare propune o alternativă mai curată.
Introduce Résiduurile de Atenție, care înlocuiesc acumularea fixă de reziduuri cu atenție softmax față de ieșirile straturilor anterioare.
În loc să însume totul orb, fiecare strat recuperează selectiv reprezentările anterioare de care are cu adevărat nevoie.
Pentru a menține acest lucru practic la scară largă, adaugă o versiune pe blocuri care comprimă straturile în rezumate pe blocuri, recuperând cea mai mare parte a câștigurilor cu un cost minim al sistemelor.
De ce contează?
Căile reziduale s-au schimbat foarte puțin în LLM-urile moderne, deși ele guvernează modul în care informația se mișcă prin adâncime.
Această lucrare arată că transformarea amestecării în funcție de conținut îmbunătățește legile de scalare, corespunde unui nivel de bază antrenat cu 1,25 ori mai mult calcul, crește GPQA-Diamond cu +7,5 și HumanEval cu +3,1, menținând totodată suprasolicitarea inferenței sub 2%.
Hârtie:
Învață să construiești agenți AI eficienți în academia noastră:

Limită superioară
Clasament
Favorite
