哦,是的。终于开始研究@karpathy的自我研究,现在针对一致性变换器架构进行了调整。 小模型。 4层 × 4头 × 256维 ≈ ~5M参数,训练时为128,评估时为1024。 没有softmax注意力头。用振荡器晶格替代。所有生成都是在变换器上方的一层中,在一个纯共振晶格中进行,控制令牌生成。 理论上的连续学习和无限上下文,因为没有KV缓存。只是从令牌耦合一致的相锁定模式的存储。