RLはしばしば中間段階で有用な信号を捨ててしまうことがあり、@karpathy言うところの「ストローで監督を吸い込む」ようなものです。MiniMax M2.5はトークンごとの報酬でこの問題を解決しています。 その結果、フロンティアのコーディング性能はクローズドソースのコストの少なくとも10分の1に相当します。@thealexkerこの仕組みがどのように機能し、M2.5が一般知識の分野で優れているかを分解しています。 こちらで詳しくお読みください: