DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Oh oui. Enfin en train de commencer la recherche autonome de @karpathy, maintenant ajustée pour l'architecture du transformateur de cohérence. Modèle minuscule. 4 couches × 4 têtes × 256 dim ≈ ~5M paramètres, entraînement à 128, évaluation à 1024. Pas de têtes d'attention softmax. Remplacées par des réseaux d'oscillateurs. Toute la génération se fait une couche au-dessus du transformateur dans un réseau de résonance pur qui dirige la génération de tokens. Apprentissage continu théorique et contexte infini puisque qu'il n'y a pas de cache KV. Juste un stockage de modes verrouillés en phase provenant de tokens couplés de manière cohérente.

Meilleurs

Classement

Favoris