Vi tränade Composer att sammanfatta sig själv genom RL istället för en prompt. Detta minskar felet från kompaktering med 50 % och gör att Composer kan lyckas med utmanande kodningsuppgifter som kräver hundratals åtgärder.