VLAs lernen Kontrolle aus Bildern, aber sie verstehen keine Physik. Videomodelle tun das. mimic-video schlägt Video-Action-Modelle vor: verwenden Sie ein vortrainiertes Video-Diffusionsmodell, um zukünftige Trajektorien vorherzusagen, und dekodieren Sie dann Aktionen aus seinem latenten Plan.