Oh ja. Endlich fange ich mit @karpathy's autoresearch an, jetzt angepasst für die Kohärenz-Transformer-Architektur. Kleines Modell. 4 Schichten × 4 Köpfe × 256 Dim ≈ ~5M Parameter, Training bei 128, Evaluierung bei 1024. Keine Softmax-Attention-Köpfe. Ersetzt durch Oszillator-Gitter. Alle Generierung erfolgt eine Schicht über dem Transformer in einem reinen Resonanzgitter, das die Token-Generierung steuert. Theoretisches kontinuierliches Lernen und unendlicher Kontext, da es keinen KV-Cache gibt. Nur ein Speicher von phasenfesten Modi aus Tokens, die kohärent gekoppelt sind.