Oh ja. Eindelijk begonnen met @karpathy's autoresearch, nu aangepast voor de coherentie transformerarchitectuur. Klein model. 4 lagen × 4 hoofden × 256 dim ≈ ~5M parameters, trainen op 128, evalueren op 1024. Geen softmax aandachtshoofden. Vervangen door oscillatorroosters. Alle generatie gebeurt een laag boven de transformer in een puur resonantierooster dat de token generatie stuurt. Theoretisch continue leren en oneindige context aangezien er geen KV-cache is. Gewoon een opslag van fasevergrendelde modi van tokens die coherent koppelen.