Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Report eccezionale dal team Kimi: Residui di Attenzione
Le connessioni residue hanno reso i Transformers profondi addestrabili.
Ma costringono anche a una crescita incontrollata dello stato nascosto con la profondità.
Questo lavoro propone un'alternativa più pulita.
Introduce i Residui di Attenzione, che sostituiscono l'accumulo residuo fisso con l'attenzione softmax sugli output dei layer precedenti.
Invece di sommare tutto alla cieca, ogni layer recupera selettivamente le rappresentazioni precedenti di cui ha effettivamente bisogno.
Per mantenere questo pratico su larga scala, aggiungono una versione a blocchi che comprime i layer in riassunti a blocchi, recuperando la maggior parte dei guadagni con un sovraccarico di sistema minimo.
Perché è importante?
I percorsi residui sono cambiati poco nei moderni LLM, anche se governano come le informazioni si muovono attraverso la profondità.
Questo documento mostra che rendere il contenuto dipendente dal mix migliora le leggi di scalabilità, corrisponde a una baseline addestrata con 1.25x più calcolo, aumenta GPQA-Diamond di +7.5 e HumanEval di +3.1, mantenendo il sovraccarico di inferenza sotto il 2%.
Documento:
Impara a costruire agenti AI efficaci nella nostra accademia:

Principali
Ranking
Preferiti
