Kami telah mengevaluasi banyak model dasar pada eval berbasis kebingungan dan Kimi k2.5 terbukti menjadi yang terkuat! Setelah itu, kami melanjutkan pra-pelatihan dan RL komputasi tinggi (peningkatan 4x). Kombinasi basis yang kuat, CPT dan RL, serta inferensi Fireworks dan sampler RL membuat Composer-2 menjadi tingkat perbatasan. Sangat meleset untuk tidak menyebutkan basis Kimi di blog kami sejak awal. Kami akan memperbaikinya untuk model berikutnya.