一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

AMI Labs 刚刚筹集了 10.3 亿美元。World Labs 在几周前筹集了 10 亿美元。两者都在押注于世界模型。但几乎没有人对这个术语有相同的理解。在我看来，这里有五种世界模型的类别。 --- 1. 联合嵌入预测架构 (JEPA) 代表：AMI Labs (@ylecun)，V-JEPA 2 这里的核心赌注是，单靠像素重建对于学习物理理解所需的抽象来说是一个低效的目标。LeCun 多年来一直在说这一点——在任何随机环境中，预测未来的每个像素都是不可行的。JEPA 通过在学习的潜在空间中进行预测来规避这一点。具体来说，JEPA 训练一个编码器，将视频片段映射到表示，然后训练一个预测器，在该表示空间中预测被遮挡的区域——而不是在像素空间中。这是一个至关重要的设计选择。一个重建像素的生成模型被迫承诺于低级细节（精确的纹理、光照、叶子位置），这些本质上是不可预测的。通过在抽象嵌入上操作，JEPA 可以捕捉到“球会从桌子上掉下来”，而不必幻觉出它掉落的每一帧。 V-JEPA 2 迄今为止是最清晰的大规模证明点。它是一个 12 亿参数的模型，通过自监督的遮挡预测在 100 万小时以上的视频上进行预训练——没有标签，没有文本。第二个训练阶段才有趣：仅仅 62 小时的 DROID 数据集中的机器人数据就足以生成一个支持零-shot 规划的动作条件世界模型。机器人生成候选动作序列，通过世界模型向前推进，并选择预测结果与目标图像最匹配的那个。这在训练期间从未见过的物体和环境上都能工作。数据效率是真正的技术亮点。62 小时几乎算不了什么。它表明，自监督的多样化视频预训练可以引导出足够的物理先验知识，以至于下游几乎不需要特定领域的数据。这是对 JEPA 设计的有力论证——如果你的表示足够好，你就不需要从头开始强行完成每个任务。 AMI Labs 是 LeCun 推动这一研究超越的努力。他们首先瞄准医疗保健和机器人，这在 JEPA 在有限数据下的物理推理能力上是有道理的。但这是一个长期的赌注——他们的 CEO 公开表示商业产品可能还需要几年。 --- 2. 空间智能 (3D 世界模型) 代表：World Labs (@drfeifei) ...