DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

j'ai réalisé 71 expériences rapides pour 500 sur 13 000 étapes pour le défi d'OpenAI 1. Le Mixture of Experts est un VAINQUEUR absolu (très surprenant car cela ne devrait pas être le cas pour les petits LLM) > Le nombre d'experts est ce qui compte le plus. 4 (meilleur) > 3 >> 2. 2. Les embeddings NON LIÉS fonctionnent, les liés sont un désastre 3. La convolution par profondeur - IMPASSE Aperçus : 1. MOE à 4 experts + leaky ReLU -> -0.048 BPB, gagnant clair 2. Embeddings facturés non liés (bn128) -> -0.031 BPB, vaut la peine d'être combiné avec MOE 3. Combo MOE + QAT -> préserve la qualité quantifiée pour la soumission impasses 1. Convolution par profondeur -> chaque variante nuit, des noyaux plus grands nuisent davantage 2. Embeddings facturés liés -> catastrophique, surtout à de petits goulets d'étranglement 3. Partage de poids -> pas compétitif avec MOE en termes de qualité 4. Combos Conv + quoi que ce soit — aggrave les dégâts Prochaines étapes 1. Valider MOE 4e + leaky à 2000-5000 étapes, plusieurs graines 2. Tester MOE 4e + leaky + bn128 non lié — les deux plus grands gains peuvent s'accumuler 3. Exécution complète (13780 étapes) de la meilleure combinaison pour voir si elle bat le leaderboard de 1.2244 BPB 71 expériences, 3 GPU, ~500 étapes chacune. Vuk Rosić...

Meilleurs

Classement

Favoris