Ah, sim. Finalmente começando a pesquisa automática do @karpathy, agora ajustada para a arquitetura do transformador de coerência. Modelo minúsculo. 4 camadas × 4 cabeças × 256 dim ≈ ~5M parâmetros, treinamento a 128, avaliação a 1024. Nada de cabeças de atenção softmax. Substituídos por redes de osciladores. Toda a geração é feita uma camada acima do transformador em uma rede de ressonância pura que direciona a geração de tokens. Aprendizado teórico contínuo e contexto infinito, já que não há cache KV. Apenas um estoque de modos de fase travados de tokens acoplados de forma coerente.