Isso se torna valioso quando a rede pode raciocinar sobre seus próprios traços de execução e tratá-los como um dispositivo de simulação, então ajustar um LoRA sobre o conhecimento adquirido (ou destilá-lo de alguma forma) como uma forma de aprendizado contínuo. Outras pessoas nos comentários apontam corretamente os pontos negativos desse método, mas acho que ainda é uma demonstração interessante.