VLAs uczą się kontroli na podstawie obrazów, ale nie rozumieją fizyki. Modele wideo to robią. mimic-video proponuje Modele Wideo-Akcji: wykorzystaj wstępnie wytrenowany model dyfuzji wideo do przewidywania przyszłych trajektorii, a następnie dekoduj akcje z jego latentnego planu.