Hemos evaluado muchos modelos base en evaluaciones basadas en perplejidad y el Kimi k2.5 resultó ser el más fuerte. Después de eso, continuamos el preentrenamiento y un RL de alto cálculo (un escalado 4x). La combinación de la base fuerte, CPT y RL, y los samplers de inferencia y RL de Fireworks hacen que Composer-2 sea de nivel frontera. No mencionar la base Kimi en nuestro blog desde el principio. Lo arreglaremos para el próximo modelo.