计算机使用模型不应该从截图中学习。 我们构建了一个新的基础模型,它像人类一样从视频中学习。FDM-1可以在Blender中构建齿轮,发现软件漏洞,甚至可以通过方向键在旧金山驾驶真实汽车。