Banger-Bericht vom Kimi-Team: Attention Residuals Residualverbindungen machen tiefe Transformer trainierbar. Aber sie zwingen auch zu unkontrolliertem Wachstum des verborgenen Zustands mit der Tiefe. Diese Arbeit schlägt eine sauberere Alternative vor. Sie führt Attention Residuals ein, die die feste Residualakkumulation durch Softmax-Attention über die Ausgaben der vorherigen Schichten ersetzen. Anstatt blind alles zu summieren, ruft jede Schicht selektiv die früheren Darstellungen ab, die sie tatsächlich benötigt. Um dies in großem Maßstab praktisch zu halten, fügen sie eine blockweise Version hinzu, die Schichten in Blockzusammenfassungen komprimiert und die meisten Gewinne mit minimalem Systemaufwand zurückgewinnt. Warum ist das wichtig? Residualpfade haben sich über moderne LLMs kaum verändert, obwohl sie bestimmen, wie Informationen durch die Tiefe fließen. Dieses Papier zeigt, dass die Mischung inhaltsabhängig zu machen, die Skalierungsgesetze verbessert, mit einer Basislinie übereinstimmt, die mit 1,25-mal mehr Rechenleistung trainiert wurde, GPQA-Diamond um +7,5 und HumanEval um +3,1 steigert, während die Inferenzkosten unter 2 % bleiben. Papier: Lerne, effektive AI-Agenten in unserer Akademie zu bauen: