我们对许多基础模型进行了基于困惑度的评估,Kimi k2.5 证明是最强的! 之后,我们进行了持续的预训练和高计算的强化学习(4倍扩展)。 强大的基础、CPT 和 RL 的结合,以及 Fireworks 的推理和 RL 采样器使 Composer-2 达到了前沿水平。 在我们的博客中一开始没有提到 Kimi 基础是个失误。我们会在下一个模型中修正这一点。