Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Поздоровайтесь с Эксклюзивным Самовниманием (XSA), (почти) бесплатным улучшением для Трансформеров в LM. Наблюдение: для y = attn(q, k, v), yᵢ и vᵢ, как правило, имеют очень высокую косинусную схожесть. Исправление: исключите vᵢ из yᵢ через zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Результат: лучшее значение потерь на обучении/валидации для различных размеров модели; увеличение прироста по мере роста длины последовательности. Смотрите больше:

Топ

Рейтинг

Избранное