Einführung von 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Überdenken der tiefen Aggregation. Residualverbindungen haben lange auf feste, einheitliche Akkumulationen gesetzt. Inspiriert von der Dualität von Zeit und Tiefe, stellen wir Attention Residuals vor, die die standardmäßige tiefenweise Rekurrenz durch lernabhängige, eingangsabhängige Aufmerksamkeit über vorhergehende Schichten ersetzen. 🔹 Ermöglicht es Netzwerken, vergangene Repräsentationen selektiv abzurufen, wodurch Verdünnung und Wachstum des verborgenen Zustands auf natürliche Weise gemildert werden. 🔹 Führt Block AttnRes ein, das Schichten in komprimierte Blöcke unterteilt, um die interschichtliche Aufmerksamkeit in großem Maßstab praktikabel zu machen. 🔹 Dient als effizienter Drop-in-Ersatz und zeigt einen 1,25-fachen Rechenvorteil mit vernachlässigbarem (<2%) Inferenzlatenzaufwand. 🔹 Validiert auf der Kimi Linear-Architektur (48B insgesamt, 3B aktivierte Parameter), die konsistente Leistungssteigerungen im Downstream liefert. 🔗Vollständiger Bericht:
Skalierungsgesetze zeigen einen konsistenten 1,25× Rechenvorteil über verschiedene Modellgrößen hinweg.
Die Analyse der Trainingsdynamik zeigt, wie AttnRes das Wachstum der verborgenen Zustandsgröße auf natürliche Weise mindert und eine gleichmäßigere Gradientenverteilung über die Tiefe hinweg erzielt.
141