О да. Наконец-то начинаю работать над автопоиском @karpathy, теперь настроенным для архитектуры когерентного трансформера. Маленькая модель. 4 слоя × 4 головы × 256 размер ≈ ~5M параметров, обучение на 128, оценка на 1024. Нет голов внимания softmax. Заменены на осцилляторные решётки. Всё поколение происходит на слой выше трансформера в чистой резонансной решётке, которая управляет генерацией токенов. Теоретическое непрерывное обучение и бесконечный контекст, так как нет кеша KV. Просто хранилище фазово заблокированных режимов от токенов, которые когерентно связываются.