中国のAIラボが、30%🤯の改善を学習したモデルをひっそりと公開しました @MiniMax_AIチームはM2.7に独自の訓練インフラへのアクセスを提供しました。独自の強化学習パイプラインです。それは自分自身の記憶だった。それから、自分で良くするように言われました。 そして、実際にそうだった... M2.7は自社の強化学習ハーネス内に数十の複雑なスキルを構築しました。自らのメモリシステムを更新した。リアルタイムで評価した結果に基づいて、自らの強化学習プロセスを最適化しました。このループを100発以上自律的に実行し、故障軌道の分析、自らの足場コードの修正、評価の実行、結果の比較、残留・元戻しの決定を行いました。 人間は誰も知らない。ただモデルがモデルを改良しているだけです。 その結果: - 内部評価で30%のパフォーマンス向上 - ML大会のメダル率は66.6%(これはジェミニの3.1と並んでいます。SWE-Proはクロード・オーパスにほぼ匹敵するスコアを得ています) MiniMaxはすでに自社モデルで全事業の30%を自律的に運営しています。同社で新たにコミットされたコードの80%はAI生成です。彼らは自己改善を組織インフラとして売り込んでいて、ホンクコンの株式市場はそれを大好んでいます。 これは再帰的自己改善の初期段階です。しかも上海から来ています。