RL thường loại bỏ tín hiệu hữu ích ở các bước trung gian, hoặc như @karpathy đã nói, nó giống như "hút sự giám sát qua một cái ống." MiniMax M2.5 giải quyết vấn đề này với phần thưởng theo từng token. Kết quả là hiệu suất mã hóa tiên tiến với chi phí ít nhất 1/10 so với nguồn đóng. @thealexker phân tích cách cơ chế này hoạt động và cách M2.5 xuất sắc trong công việc kiến thức tổng quát. Đọc về nó ở đây: