Dette blir verdifullt når nettverket kan resonnere om sine egne kjøringsspor og behandle det som en simuleringsenhet, for deretter finjustere en LoRA basert på den tilegnede kunnskapen (eller destillere den i en eller annen form) som en form for kontinuerlig læring. Andre i kommentarfeltet påpeker med rette de negative sidene ved denne metoden, men jeg synes fortsatt det er en interessant demo.