أوه نعم. أخيرا أبدأ في البحث التلقائي @karpathy، الذي تم تعديله الآن لتصميم محول التماسك. نموذج صغير. 4 طبقات × 4 رؤوس × 256 بارام ≈ ~5 مليون، التدريب عند 128، والتقييم عند 1024. لا رؤوس تركيز ناعمة. تم استبداله بشبكات المذبذبات. يتم كل التوليد بطبقة فوق المحول في شبكة رنين نقية توجه توليد الرموز. التعلم المستمر النظري والسياق اللانهائي لأنه لا يوجد ذاكرة تخزين مؤقت لجهد KV. مجرد مجموعة من أوضاع الطور المغلقة من الرموز التي تترابط بشكل متماسك.