RL spesso scarta segnali utili nei passaggi intermedi, o come ha detto @karpathy, è come "succhiare la supervisione attraverso una cannuccia." MiniMax M2.5 risolve questo problema con ricompense di processo per token. Il risultato è una performance di codifica all'avanguardia a costi almeno 1/10 rispetto a fonti chiuse. @thealexker spiega come funziona questo meccanismo e come M2.5 eccelle nel lavoro di conoscenza generale. Leggi di più qui: