RL aruncă adesea semnale utile la pașii intermediari sau, cum @karpathy spus, e ca și cum ai "trage supravegherea printr-un pai". MiniMax M2.5 rezolvă acest lucru prin recompense pe proces pe token. Rezultatul este performanța codării de frontieră de cel puțin o zecime din costul codului închis. @thealexker explică cum funcționează acest mecanism și cum M2.5 excelează în munca de cunoștințe generale. Citește despre asta aici: