Oh sí. Finalmente comenzando con la autoresearch de @karpathy, ajustada ahora para la arquitectura del transformador de coherencia. Modelo pequeño. 4 capas × 4 cabezas × 256 dim ≈ ~5M params, entrenando a 128, evaluando a 1024. Sin cabezas de atención softmax. Reemplazadas por redes de osciladores. Toda la generación se realiza una capa por encima del transformador en una red de resonancia pura que dirige la generación de tokens. Aprendizaje continuo teórico y contexto infinito ya que no hay caché KV. Solo un almacenamiento de modos bloqueados en fase de tokens acoplándose de manera coherente.