Я швидко провів 71 експеримент для 500 із 13 000 кроків для виклику OpenAI 1. Mix of Experts — абсолютний ПЕРЕМОЖЕЦЬ (дуже дивно, адже це не мало б бути для малих LLM) > Експертна кількість має найбільшу роль. 4 (найкращі) > 3 >> 2. 2. UNTIED Embeddings працює, зв'язані — це катастрофа 3. Глибинна згортка — ГЛУХИЙ КУТ Інсайти: 1. 4-експертний MOE + дірявий ReLU -> -0,048 BPB, явний переможець 2. Незв'язані факторизовані вкладення (bn128) -> -0,031 BPB, варті поєднання з MOE 3. Комбінація MOE + QAT -> зберігає квантовану якість для подання Глухі кути 1. Глибинна згортка — > кожен варіант болить, більші зерна болять сильніше 2. Вкладення з пов'язаними факторами — > катастрофічними, особливо на малих вузьких місцях 3. Розподіл ваги — > не конкурує з MOE за якість 4. Conv + будь-які комбінації — збільшує шкоду Наступні кроки 1. Перевірте MOE 4e + leaky на 2000-5000 кроків, кілька насін 2. Протестуйте MOE 4e + leaky + untieed bn128 — дві найбільші виграші можуть накопичуватися 3. Повний пробіг (13780 кроків) найкращого комбо, щоб перевірити, чи перевершить таблицю лідерів 1.2244 BPB 71 експеримент, 3 GPU, ~500 кроків кожен. Вук Росич...