Hice 71 experimentos rápidos para 500 de 13.000 pasos para el desafío de OpenAI 1. La mezcla de expertos es un GANADOR absoluto (muy sorprendente, ya que no debería ser para LLMs pequeños) > Lo más importante es el recuento de expertos. 4 (mejor) > 3 >> 2. 2. Incrustaciones SEN ATADURAS Funcionan, atadas son desastres 3. Convolución en profundidad - CALLEJÓN SIN SALIDA Perspectivas: 1. 4-experto MOE + ReLU con fugas -> -0,048 BPB, claro ganador 2. Embeddings factorizados no atados (bn128) -> -0,031 BPB, vale la pena combinarlos con MOE 3. Combinación MOE + QAT -> preserva la calidad cuantizada para la presentación Callejones sin salida 1. Convolución en profundidad - > cada variante duele, los granos más grandes duelen más 2. Incrustaciones con factores empatados -> catastróficas, especialmente en cuellos de botella pequeños 3. Reparto de peso -> no es competitivo con MOE en calidad 4. Combinaciones de Conversión + cualquier cosa — agrava el daño Próximos pasos 1. Validar MOE 4e + leaky en 2000-5000 pasos, múltiples semillas 2. Test MOE 4e + gotera + bn128 desempatado — las dos mayores victorias pueden acumularse 3. Partida completa (13780 pasos) de la mejor combinación para ver si supera la tabla de 1.2244 BPB 71 experimentos, 3 GPUs, ~500 pasos cada una. Vuk Rosić...