Å ja. Endelig begynner vi på @karpathy sin autoresearch, nå justert for koherenstransformatorarkitekturen. Liten modell. 4 lag × 4 hoder × 256 svake ≈ ~5 millioner paramer, trening på 128, evaluering på 1024. Ingen softmax-oppmerksomhetshoder. Erstattet med oscillatorgitter. All generering skjer et lag over transformatoren i et rent resonans-gitter som styrer token-genereringen. Teoretisk kontinuerlig læring og uendelig kontekst siden det ikke finnes noen KV-cache. Bare et lager av faselåste moduser fra tokens som kobler seg sammenhengende.