Dikkat Kalıntılarını Tanıtmak: Derinlik açısından toplamayı yeniden düşünmek. Kalıntı bağlantılar uzun süredir sabit, tekdüz birikimi kullanıyordu. Zaman ve derinlik ikiliğinden ilham alan Dikkat Kalıntıları'nı tanıtıyoruz; standart derinlik yinesini önceki katmanlar üzerinde öğrenilen, girdiye bağlı dikkatle değiştiriyoruz. 🔹 Ağların geçmiş temsilleri seçici olarak geri almasını sağlar, böylece seyreltme ve gizli durum büyümesini doğal olarak azaltır. 🔹 Katmanlar çapraz dikkati ölçekte pratik hale getirmek için katmanları sıkıştırılmış bloklara bölen Block AttnRes'i tanıtır. 🔹 Verimli bir yerleştirme yerine hizmet eder ve 1,25 kat hesaplama avantajı gösterir ve %<2) çıkarım gecikmesi ek yükü vardır. 🔹 Kimi Linear mimarisi üzerinde doğrulandı (toplamda 48B, 3B aktif parametreler), tutarlı bir sonraki performans artışı sağlıyor. 🔗Tam rapor:
Ölçeklendirme yasası deneyleri, farklı model boyutlarında tutarlı 1,21× hesaplama avantajı ortaya koyar.
Eğitim dinamiklerinin analizi, AttnRes'in gizli durum büyüklüğü büyümesini doğal olarak nasıl azalttığını ve derinlik boyunca daha uniform bir gradyan dağılımı sağladığını gösterir.
91