RL wirft oft nützliche Signale in den Zwischenstufen weg, oder wie @karpathy es ausdrückte, es ist wie "Aufsicht durch einen Strohhalm zu saugen." MiniMax M2.5 löst dies mit pro-Token-Prozessbelohnungen. Das Ergebnis ist eine Spitzenleistung im Codieren zu mindestens 1/10 der Kosten von Closed Source. @thealexker erklärt, wie dieser Mechanismus funktioniert und wie M2.5 im Bereich der allgemeinen Wissensarbeit herausragt. Lesen Sie hier darüber: