Wir haben Composer trainiert, um sich selbst zusammenzufassen, indem wir RL anstelle eines Prompts verwenden. Dies reduziert den Fehler durch Verdichtung um 50 % und ermöglicht es Composer, bei anspruchsvollen Programmieraufgaben, die Hunderte von Aktionen erfordern, erfolgreich zu sein.