Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ik heb snel 71 experimenten gedaan voor 500 uit 13.000 stappen voor de uitdaging van OpenAI
1. Mixture of Experts is absolute WINNAAR
(zeer verrassend, aangezien het niet zou moeten zijn voor kleine LLM's)
> Aantal experts is het belangrijkst. 4 (beste) > 3 >> 2.
2. UNTIED Embeddings werken, verbonden zijn een ramp
3. Depthwise Convolution - DOODLOOP
Inzichten:
1. 4-expert MOE + leaky ReLU -> -0.048 BPB, duidelijke winnaar
2. Untied factored embeddings (bn128) -> -0.031 BPB, het is de moeite waard om te combineren met MOE
3. MOE + QAT combo -> behoudt gekwantiseerde kwaliteit voor indiening
doodlopen
1. Depthwise convolution -> elke variant schaadt, grotere kernels schaden meer
2. Tied factored embeddings -> catastrofaal, vooral bij kleine knelpunten
3. Gewicht delen -> niet concurrerend met MOE voor kwaliteit
4. Conv + welke combinaties dan ook — vergroot de schade
Volgende stappen
1. Valideer MOE 4e + leaky bij 2000-5000 stappen, meerdere zaden
2. Test MOE 4e + leaky + untied bn128 — de twee grootste winsten kunnen zich opstapelen
3. Volledige run (13780 stappen) van de beste combinatie om te zien of het de 1.2244 BPB leaderboard verslaat
71 experimenten, 3 GPU's, ~500 stappen elk. Vuk Rosić...



Boven
Positie
Favorieten
