Kami melatih Komposer untuk meringkas diri melalui RL alih-alih prompt. Ini mengurangi kesalahan dari pemadatan sebesar 50% dan memungkinkan Composer untuk berhasil dalam tugas pengkodean yang menantang yang membutuhkan ratusan tindakan.