Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chaque modèle de fondation que vous avez jamais utilisé a le même bug. Il vient d'être corrigé.
Depuis 2015, chaque réseau profond a été construit de la même manière : chaque couche effectue un calcul, ajoute son résultat à un total en cours, et le passe en avant.
Simple. Mais il y a un problème, à la couche 100, le signal de n'importe quelle couche unique est enterré sous la somme de tout le reste.
Chaque nouvelle couche compte de moins en moins.
Personne n'a corrigé cela parce que ça fonctionnait assez bien.
Moonshot AI vient de changer cela. Leur nouvelle méthode, Attention Residuals, permet à chaque couche de revenir sur toutes les couches précédentes et de choisir celles qui comptent vraiment en ce moment.
Au lieu d'un total en cours aveugle, vous obtenez une récupération sélective.
L'analogie : imaginez écrire un essai où chaque brouillon est automatiquement fusionné en un seul document. Au brouillon 50, vos dernières modifications sont invisibles.
AttnRes vous permet de garder chaque brouillon séparé et de tirer de ceux dont vous avez besoin.
Ce que cela corrige :
1. Les couches plus profondes ne sont plus noyées
2. L'entraînement devient plus stable à travers tout le réseau
3. Le modèle utilise sa propre profondeur plus efficacement
Pour le rendre pratique à grande échelle, ils regroupent les couches en blocs et s'attachent aux résumés de blocs au lieu de chaque couche individuelle.
Surcharge à l'inférence : moins de 2%.
Le résultat :
25% de calcul en moins pour atteindre la même performance. Testé sur un modèle de 48 milliards de paramètres. Cela tient à travers les tailles....
Meilleurs
Classement
Favoris
