Fiz 71 experimentos rápidos para 500 dos 13.000 passos do desafio do OpenAI 1. A mistura de especialistas é um VENCEDOR absoluto (muito surpreendente, pois não deveria ser para pequenos LLMs) > A contagem de especialistas é o que mais importa. 4 (melhor) > 3 >> 2. 2. Incorporações DESAMARRADAS funcionam e são desastres 3. Convolução em profundidade - BECO SEM SAÍDA Insights: 1. MOE 4-expert + ReLU vazando -> -0,048 BPB, vencedor claro 2. Embeddings fatorizados não ligados (bn128) -> -0,031 BPB, vale a pena combinar com o MOE 3. Combinação MOE + QAT -> preserva a qualidade quantizada para submissão Becos sem saída 1. Convolução em profundidade - > cada variante dói, grãos maiores doem mais 2. Embeddings fatorizados empatados - > catastróficos, especialmente em pequenos gargalos 3. Compartilhamento de peso - > não é competitivo com o MOE em qualidade 4. Combos de Confederação + qualquer coisa — aumenta o dano Próximos Passos 1. Validar MOE 4e + leaky em 2000-5000 passos, múltiplas sementes 2. Teste MOE 4e + leaky + bn128 desempatado — as duas maiores vitórias podem se acumular 3. Corrida completa (13780 passos) do melhor combo para ver se supera o ranking de 1.2244 BPB 71 experimentos, 3 GPUs, ~500 passos cada. Vuk Rosić...