1/n Aynı cümleyi İngilizce ve Çince bir LLM'ye verdim, sonra içeride ne olduğunu izledim.
Katman 10'a gelindiğinde, model artık hangi dili okuduğunu bilmiyor. Sadece... düşünüyordu.
LLM beyinlerinin aslında içinde 🧵 nasıl göründüğüne dair yeni blog yazısı
Önceden eğitilmiş kodlayıcı yok, karmaşık numaralar yok.
LeWorldModel, JEPA tabanlı Dünya Modellerinin ham piksellerden uçtan uca sadece 2 kayıp terimiyle nasıl eğitilebileceğini gösteriyor
~15M param, tek GPU ve ~48× temel model dünya modellerinden daha hızlı planlama.
ilginç.
Yanlış hatırlamıyorsam, mevcut tokenın KV'sini dikkat maskesi ile hariç tuttum (yani çaprazı kaldırın) çalışmıyor!
Hipotez: Bu, mevcut tokenı etkili bir dikkat çekici haline getirir.
LM için Transformers'a (neredeyse) ücretsiz bir geliştirme olan Exclusive Self Attention (XSA) ile selam deyin.
Gözlem: y = attn(q, k, v) için, yi ve vi çok yüksek kosinüs benzerliğe sahiptir
Düzeltme: vi ile yi ile zi = yi - (yiTvi)vi/‖vi‖²
Sonuç: model boyutları arasında daha iyi eğitim/değer kaybı; Dizi uzunluğu arttıkça kazançlar artır.
Daha fazlasını gör: