注意残差の導入:深さに基づく集約の再考。 残留接続は長い間、固定された均一な蓄積に依存してきました。時間と深さの二重性に触発され、私たちは注意残差を導入し、標準的な深さごとの再帰を、学習された入力依存の注意に置き換えます。 🔹 ネットワークが過去の表現を選択的に取得できるようにし、希釈や隠れた状態の成長を自然に軽減します。 🔹 ブロックアタットレスを導入し、層を圧縮ブロックに分割することで、大規模にクロスレイヤーアテンションを実用化します。 🔹 効率的なドロップイン代替として機能し、推論遅延オーバーヘッドが<2%に抑えられ、計算能力が1.25倍の優位性を示します。 🔹 Kimi Linearアーキテクチャ(合計48B、3Bパラメータ有効化)で検証され、一貫した下流性能向上を実現しています。 🔗全文報告:
スケーリング法則実験では、モデルサイズの異なる間で一貫して1.25×の計算上の優位性が示されています。
訓練ダイナミクスの解析により、AttnResが隠れた状態のマグニチュード成長を自然に緩和し、深さ全体でより均一な勾配分布をもたらすことが示されています。
100