brak wstępnie wytrenowanego enkodera, brak skomplikowanych sztuczek.
LeWorldModel pokazuje, jak modele świata oparte na JEPA mogą być trenowane end-to-end z surowych pikseli przy użyciu tylko 2 funkcji straty
~15M parametrów, pojedynczy GPU i ~48× szybsze planowanie niż modele świata oparte na modelach podstawowych.
interesujące.
O ile pamiętam, wykluczenie KV bieżącego tokena przez maskę uwagi (tj. usunięcie przekątnej) nie działa!
Hipoteza: to skutecznie sprawia, że bieżący token staje się pułapką uwagi.
Say hi to Exclusive Self Attention (XSA), a (nearly) free improvement to Transformers for LM.
Observation: for y = attn(q, k, v), yᵢ and vᵢ tend to have a very high cosine similarity
Fix: exclude vᵢ from yᵢ via zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖²
Result: better training/val loss across model sizes; increasing gains as sequence length grows.
See more: