RL kastar ofta bort användbara signaler vid mellanliggande steg, eller som @karpathy uttryckte det, det är som att "suga övervakning genom ett sugrör." MiniMax M2.5 löser detta med belöningar per token-process. Resultatet är en frontier-kodningsprestanda som är minst en tiondel av kostnaden för sluten källkod. @thealexker förklarar hur denna mekanism fungerar och hur M2.5 utmärker sig inom allmänbildning. Läs om det här: