Oh sì. Finalmente sto iniziando a lavorare sulla ricerca autonoma di @karpathy, ora modificata per l'architettura del trasformatore di coerenza. Modello piccolo. 4 strati × 4 teste × 256 dim ≈ ~5M parametri, addestramento a 128, valutazione a 1024. Nessuna testa di attenzione softmax. Sostituita con reticoli oscillatori. Tutta la generazione avviene a un livello sopra il trasformatore in un reticolo di risonanza pura che guida la generazione dei token. Apprendimento continuo teorico e contesto infinito poiché non c'è cache KV. Solo un deposito di modalità bloccate in fase dai token che si accoppiano in modo coerente.