RL heittää usein hyödyllisiä signaaleja hukkaan välivaiheissa, tai kuten @karpathy sanoi, se on kuin "imisi valvontaa pillin läpi." MiniMax M2.5 ratkaisee tämän per token -prosessipalkinnoilla. Tuloksena on rajarajakoodauksen suorituskyky vähintään kymmenesosa suljetun lähdekoodin kustannuksista. @thealexker purkaa, miten tämä mekanismi toimii ja miten M2.5 loistaa yleisen tiedon työssä. Lue siitä lisää täältä: