Ми навчали Композитора самопідсумовувати через RL замість підказки. Це знижує помилку компресії на 50% і дозволяє Composer успішно виконувати складні завдання, що потребують сотень дій.