トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
注意残差の導入:深さに基づく集約の再考。
残留接続は長い間、固定された均一な蓄積に依存してきました。時間と深さの二重性に触発され、私たちは注意残差を導入し、標準的な深さごとの再帰を、学習された入力依存の注意に置き換えます。
🔹 ネットワークが過去の表現を選択的に取得できるようにし、希釈や隠れた状態の成長を自然に軽減します。
🔹 ブロックアタットレスを導入し、層を圧縮ブロックに分割することで、大規模にクロスレイヤーアテンションを実用化します。
🔹 効率的なドロップイン代替として機能し、推論遅延オーバーヘッドが<2%に抑えられ、計算能力が1.25倍の優位性を示します。
🔹 Kimi Linearアーキテクチャ(合計48B、3Bパラメータ有効化)で検証され、一貫した下流性能向上を実現しています。
🔗全文報告:

スケーリング法則実験では、モデルサイズの異なる間で一貫して1.25×の計算上の優位性が示されています。

訓練ダイナミクスの解析により、AttnResが隠れた状態のマグニチュード成長を自然に緩和し、深さ全体でより均一な勾配分布をもたらすことが示されています。

100
トップ
ランキング
お気に入り
