哦,是的。終於開始進行 @karpathy 的自動研究,現在已經調整為一致性變壓器架構。 小型模型。 4 層 × 4 頭 × 256 維 ≈ ~5M 參數,訓練時使用 128,評估時使用 1024。 沒有 softmax 注意力頭。用振盪器晶格取而代之。所有生成都是在變壓器上方的一層中進行的,使用純共振晶格來引導標記生成。 理論上實現持續學習和無限上下文,因為沒有 KV 緩存。只是從標記耦合一致的相鎖模式的存儲。