RL a menudo descarta señales útiles en pasos intermedios, o como lo expresó @karpathy, es como "chupar supervisión a través de una pajita." MiniMax M2.5 resuelve esto con recompensas de proceso por token. El resultado es un rendimiento de codificación de vanguardia a un costo de al menos 1/10 del de fuentes cerradas. @thealexker desglosa cómo funciona este mecanismo y cómo M2.5 sobresale en el trabajo de conocimiento general. Lee sobre ello aquí: