一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

哦，是的。終於開始進行 @karpathy 的自動研究，現在已經調整為一致性變壓器架構。小型模型。 4 層 × 4 頭 × 256 維 ≈ ~5M 參數，訓練時使用 128，評估時使用 1024。沒有 softmax 注意力頭。用振盪器晶格取而代之。所有生成都是在變壓器上方的一層中進行的，使用純共振晶格來引導標記生成。理論上實現持續學習和無限上下文，因為沒有 KV 緩存。只是從標記耦合一致的相鎖模式的存儲。