A RL muitas vezes descarta sinais úteis em etapas intermediárias, ou como @karpathy colocou, é como "sugar supervisão através de um canudo." O MiniMax M2.5 resolve isso com recompensas de processo por token. O resultado é um desempenho de codificação de fronteira a um custo de pelo menos 1/10 do de fontes fechadas. @thealexker detalha como esse mecanismo funciona e como o M2.5 se destaca no trabalho de conhecimento geral. Leia sobre isso aqui: