Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Знайомимося з залишками уваги: переосмислення глибинної агрегації.
Залишкові з'єднання давно залежали від фіксованого, рівномірного накопичення. Натхненні дуальністю часу і глибини, ми представляємо Залишки Уваги, замінюючи стандартне глибинне повторення на вивчену, залежну від вхідних даних увагу над попередніми шарами.
🔹 Дозволяє мережам вибірково отримувати минулі представлення, природно пом'якшуючи розмивання та ріст прихованого стану.
🔹 Вводить Block AttnRes, розбиваючи шари на стиснені блоки для практичності крос-шарової уваги у масштабі.
🔹 Служить ефективною заміною з додаванням, демонструючи перевагу в 1,25 рази в обчислюванні з незначними (<2%) затримками на інференцію.
🔹 Перевірено на архітектурі Kimi Linear (всього 48 мільярдів, активовані 3 бази параметрів), що забезпечує стабільне приріст продуктивності на наступному етапі.
🔗Повний звіт:

Експерименти з законом масштабування показують стабільну перевагу в обчисленнях 1,25× при різних розмірах моделей.

Аналіз динаміки тренувань демонструє, як AttnRes природно пом'якшує зростання магнітуди прихованого стану і забезпечує більш рівномірний розподіл градієнтів по глибині.

138
Найкращі
Рейтинг
Вибране
