Exclusive Self Attention(XSA)に挨拶しましょう。これはLM版トランスフォーマーの(ほぼ)無料改良版です。 観察:y = attn(q, k, v) の場合、yi と vi は非常に高い余弦類似性を持つ傾向があります。 修正:ii = yi - (yiTvi)vi/‖vi‖² を用いて vi を yi から除外する 結果:モデルサイズ間でのトレーニング/評価損失の改善; 配列長が長くなるにつれて増大します。 続きを見る: