Udělal jsem rychlých 71 experimentů pro 500 z 13 000 kroků pro výzvu OpenAI 1. Mix expertů je absolutní VÍTĚZ (velmi překvapivé, protože by to nemělo být u malých LLM) > Nejdůležitější je počet expertů. 4 (nejlepší) > 3 >> 2. 2. UNTIED Embeddings fungují, jsou nešťastné 3. Hloubková konvoluce – SLEPÁ ULIČKA Postřehy: 1. 4-expertní MOE + netěsnící ReLU -> -0,048 BPB, jasný vítěz 2. Nevázané faktorované embeddingy (bn128) -> -0,031 BPB, které stojí za to kombinovat s MOE 3. Kombinace MOE + QAT -> zachovává kvantovanou kvalitu pro podání Slepé uličky 1. Hloubková konvoluce – > každá varianta bolí, větší jádra bolí více 2. Vázané faktoringové vnoření – > katastrofální, zejména při malých úzkých místech 3. Sdílení váhy – > nekonkurenceschopné s MOE v kvalitě 4. Conv + cokoli komba — zhoršuje poškození Další kroky 1. Validujte MOE 4e + leaky v počtu 2000-5000 kroků, více semen 2. Test MOE 4e + leaky + untied bn128 — dvě největší výhry se mohou nasčítat 3. Kompletní běh (13780 kroků) nejlepší kombinace, abyste zjistili, zda překoná žebříček 1,2244 BPB 71 experimentů, 3 GPU, každá ~500 kroků. Vuk Rosić...