热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
AMI Labs 刚刚筹集了 10.3 亿美元。World Labs 在几周前筹集了 10 亿美元。两者都在押注于世界模型。
但几乎没有人对这个术语有相同的理解。
在我看来,这里有五种世界模型的类别。
---
1. 联合嵌入预测架构 (JEPA)
代表:AMI Labs (@ylecun),V-JEPA 2
这里的核心赌注是,单靠像素重建对于学习物理理解所需的抽象来说是一个低效的目标。LeCun 多年来一直在说这一点——在任何随机环境中,预测未来的每个像素都是不可行的。JEPA 通过在学习的潜在空间中进行预测来规避这一点。
具体来说,JEPA 训练一个编码器,将视频片段映射到表示,然后训练一个预测器,在该表示空间中预测被遮挡的区域——而不是在像素空间中。
这是一个至关重要的设计选择。
一个重建像素的生成模型被迫承诺于低级细节(精确的纹理、光照、叶子位置),这些本质上是不可预测的。通过在抽象嵌入上操作,JEPA 可以捕捉到“球会从桌子上掉下来”,而不必幻觉出它掉落的每一帧。
V-JEPA 2 迄今为止是最清晰的大规模证明点。它是一个 12 亿参数的模型,通过自监督的遮挡预测在 100 万小时以上的视频上进行预训练——没有标签,没有文本。第二个训练阶段才有趣:仅仅 62 小时的 DROID 数据集中的机器人数据就足以生成一个支持零-shot 规划的动作条件世界模型。机器人生成候选动作序列,通过世界模型向前推进,并选择预测结果与目标图像最匹配的那个。这在训练期间从未见过的物体和环境上都能工作。
数据效率是真正的技术亮点。62 小时几乎算不了什么。它表明,自监督的多样化视频预训练可以引导出足够的物理先验知识,以至于下游几乎不需要特定领域的数据。这是对 JEPA 设计的有力论证——如果你的表示足够好,你就不需要从头开始强行完成每个任务。
AMI Labs 是 LeCun 推动这一研究超越的努力。他们首先瞄准医疗保健和机器人,这在 JEPA 在有限数据下的物理推理能力上是有道理的。但这是一个长期的赌注——他们的 CEO 公开表示商业产品可能还需要几年。
---
2. 空间智能 (3D 世界模型)
代表:World Labs (@drfeifei)
...
热门
排行
收藏
