RL często odrzuca użyteczny sygnał na pośrednich etapach, lub jak to ujął @karpathy, to jak "sączyć nadzór przez słomkę." MiniMax M2.5 rozwiązuje to za pomocą nagród za proces na poziomie tokenów. Rezultatem jest wydajność kodowania na granicy, przynajmniej 1/10 kosztów zamkniętego źródła. @thealexker wyjaśnia, jak ten mechanizm działa i jak M2.5 wyróżnia się w ogólnej pracy z wiedzą. Przeczytaj o tym tutaj: