realicé 71 experimentos rápidos para 500 de 13,000 pasos para el desafío de OpenAI 1. Mixture of Experts es el ABSOLUTO GANADOR (muy sorprendente ya que no debería serlo para LLMs pequeños) > La cantidad de expertos es lo que más importa. 4 (mejor) > 3 >> 2. 2. Los embeddings NO ATADOS funcionan, los atados son un desastre 3. Convolución por profundidad - CALLEJÓN SIN SALIDA Perspectivas: 1. MOE de 4 expertos + leaky ReLU -> -0.048 BPB, claro ganador 2. Embeddings factorizados no atados (bn128) -> -0.031 BPB, vale la pena combinar con MOE 3. Combo MOE + QAT -> preserva la calidad cuantizada para la presentación callejones sin salida 1. Convolución por profundidad -> cada variante perjudica, los núcleos más grandes perjudican más 2. Embeddings factorizados atados -> catastrófico, especialmente en cuellos de botella pequeños 3. Compartición de pesos -> no es competitivo con MOE en calidad 4. Conv + cualquier combinación — agrava el daño Próximos pasos 1. Validar MOE 4e + leaky en 2000-5000 pasos, múltiples semillas 2. Probar MOE 4e + leaky + bn128 no atado — las dos mayores victorias pueden acumularse 3. Ejecución completa (13780 pasos) de la mejor combinación para ver si supera el 1.2244 BPB en la tabla de clasificación 71 experimentos, 3 GPUs, ~500 pasos cada uno. Vuk Rosić...