Знайомимося з залишками уваги: переосмислення глибинної агрегації. Залишкові з'єднання давно залежали від фіксованого, рівномірного накопичення. Натхненні дуальністю часу і глибини, ми представляємо Залишки Уваги, замінюючи стандартне глибинне повторення на вивчену, залежну від вхідних даних увагу над попередніми шарами. 🔹 Дозволяє мережам вибірково отримувати минулі представлення, природно пом'якшуючи розмивання та ріст прихованого стану. 🔹 Вводить Block AttnRes, розбиваючи шари на стиснені блоки для практичності крос-шарової уваги у масштабі. 🔹 Служить ефективною заміною з додаванням, демонструючи перевагу в 1,25 рази в обчислюванні з незначними (<2%) затримками на інференцію. 🔹 Перевірено на архітектурі Kimi Linear (всього 48 мільярдів, активовані 3 бази параметрів), що забезпечує стабільне приріст продуктивності на наступному етапі. 🔗Повний звіт:
Експерименти з законом масштабування показують стабільну перевагу в обчисленнях 1,25× при різних розмірах моделей.
Аналіз динаміки тренувань демонструє, як AttnRes природно пом'якшує зростання магнітуди прихованого стану і забезпечує більш рівномірний розподіл градієнтів по глибині.
138