ああ、そうだ。 ついに@karpathyの自動研究に取りかかり、現在はコヒーレンストランスアーキテクチャに合わせて調整しています。 小さなモデル。 4層×4ヘッド×256の暗≈~5Mパララム、128で訓練、1024で評価。 ソフトマックスの注目ヘッドはなし。 発振器格子に置き換えられます。 すべての生成はトランスの上層の純粋共振格子で行われ、トークン生成を誘導します。 理論的な連続学習と無限のコンテキストで、KVキャッシュが存在しません。 トークン同士がコヒーク結合することで、位相ロックモードのストアに過ぎません。