El RL a menudo desecha señales útiles en pasos intermedios, o como @karpathy digo, es como "absorber supervisión a través de una pajita". MiniMax M2.5 soluciona esto con recompensas por proceso por ficha. El resultado es un rendimiento de codificación de frontera al menos una décima parte del coste del código cerrado. @thealexker desglosa cómo funciona este mecanismo y cómo M2.5 destaca en el trabajo de conocimientos generales. Lee sobre ello aquí: