Hemos evaluado muchos modelos base en evaluaciones basadas en perplexidad y Kimi k2.5 demostró ser el más fuerte! Después de eso, continuamos con el preentrenamiento y el RL de alto rendimiento (un aumento de 4x). La combinación de la base fuerte, CPT y RL, y los muestreadores de inferencia y RL de Fireworks hacen que Composer-2 esté a nivel de frontera. Fue un error no mencionar la base Kimi en nuestro blog desde el principio. Arreglaremos eso para el próximo modelo.