OpenAIのチャレンジのために、13,000ステップ中500ステップで71回の実験を素早く行いました 1. エキスパートの混合は絶対的な勝者です (小規模LLMにとっては驚くべきことではないのに) > エキスティカルトの数が最も重要です。4(ベスト)>3>>2。 2. UNTIEDの埋め込み作業、縛られれば災害が起こる 3. 深さのコンボリューション - 行き止まり 洞察: 1. 4-expert MOE + リーキー ReLU -> -0.048 BPB、明確な勝者 2. 未結合因数分解埋め込み(bn128)-> -0.031 BPB、MOEと組み合わせる価値があります 3. MOE + QATの組み合わせ -> 提出のために量子化された品質を保持 行き止まり 1. 深さごとに畳み込み - >どのバリアントも痛手で、大きな核ほど痛手です 2. タイド因子分解埋め込み - >、特に小さなボトルネックでは壊滅的です 3. 重量分担 - 品質面でMOEと競>合わない 4. コンバージョン+任意のコンボ — ダメージが増加します 今後のステップ 1. MOE 4e + リーキーを2000〜5000ステップで検証し、複数シードを実施 2. テストMOE 4e + leaky + untied bn128 — 最大の2つの勝利が重なる可能性があります 3. ベストコンボを13780歩走って1.2244 BPBリーダーボードを上回るか試す 71の実験、3つのGPUで、各500ステップあたり。ヴク・ロシッチ...