ik heb snel 71 experimenten gedaan voor 500 uit 13.000 stappen voor de uitdaging van OpenAI 1. Mixture of Experts is absolute WINNAAR (zeer verrassend, aangezien het niet zou moeten zijn voor kleine LLM's) > Aantal experts is het belangrijkst. 4 (beste) > 3 >> 2. 2. UNTIED Embeddings werken, verbonden zijn een ramp 3. Depthwise Convolution - DOODLOOP Inzichten: 1. 4-expert MOE + leaky ReLU -> -0.048 BPB, duidelijke winnaar 2. Untied factored embeddings (bn128) -> -0.031 BPB, het is de moeite waard om te combineren met MOE 3. MOE + QAT combo -> behoudt gekwantiseerde kwaliteit voor indiening doodlopen 1. Depthwise convolution -> elke variant schaadt, grotere kernels schaden meer 2. Tied factored embeddings -> catastrofaal, vooral bij kleine knelpunten 3. Gewicht delen -> niet concurrerend met MOE voor kwaliteit 4. Conv + welke combinaties dan ook — vergroot de schade Volgende stappen 1. Valideer MOE 4e + leaky bij 2000-5000 stappen, meerdere zaden 2. Test MOE 4e + leaky + untied bn128 — de twee grootste winsten kunnen zich opstapelen 3. Volledige run (13780 stappen) van de beste combinatie om te zien of het de 1.2244 BPB leaderboard verslaat 71 experimenten, 3 GPU's, ~500 stappen elk. Vuk Rosić...