RL gooit vaak nuttige signalen weg bij tussenstappen, of zoals @karpathy het zei, het is als "supervisie zuigen door een rietje." MiniMax M2.5 lost dit op met per-token procesbeloningen. Het resultaat is grensverleggende coderingsprestaties voor minstens 1/10 van de kosten van gesloten bron. @thealexker legt uit hoe dit mechanisme werkt en hoe M2.5 uitblinkt in algemeen kenniswerk. Lees er hier meer over: