一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

哦，是的。终于开始研究@karpathy的自我研究，现在针对一致性变换器架构进行了调整。小模型。 4层 × 4头 × 256维 ≈ ~5M参数，训练时为128，评估时为1024。没有softmax注意力头。用振荡器晶格替代。所有生成都是在变换器上方的一层中，在一个纯共振晶格中进行，控制令牌生成。理论上的连续学习和无限上下文，因为没有KV缓存。只是从令牌耦合一致的相锁定模式的存储。