Привітайтеся з Exclusive Self Attention (XSA), (майже) безкоштовним покращенням Transformers для LM. Спостереження: для y = attn(q, k, v), yi і vi мають дуже високу косинусну схожість Виправлення: виключити vi з yi через zi = yi - (yiTvi)vi/‖vi‖² Результат: краща втрата тренувань/val залежно від розміру моделі; збільшується приріст із збільшенням довжини послідовності. Дивіться більше: