AMI Labs только что привлекли 1,03 миллиарда долларов. World Labs привлекли 1 миллиард долларов несколько недель назад. Оба делают ставку на мировые модели. Но почти никто не понимает этот термин одинаково. Вот, на мой взгляд, пять категорий мировых моделей. --- 1. Архитектура предсказания совместного встраивания (JEPA) Представители: AMI Labs (@ylecun), V-JEPA 2 Центральная ставка здесь заключается в том, что реконструкция пикселей сама по себе является неэффективной целью для изучения абстракций, необходимых для физического понимания. ЛеКун говорит об этом уже много лет — предсказать каждый пиксель будущего невозможно в любой стохастической среде. JEPA обходит это, предсказывая в обученном латентном пространстве. Конкретно, JEPA обучает кодировщик, который сопоставляет видеопетлицы с представлениями, затем предсказатель, который прогнозирует замаскированные области в этом пространственном представлении — не в пиксельном пространстве. Это критически важный выбор дизайна. Генеративная модель, которая реконструирует пиксели, вынуждена привязываться к низкоуровневым деталям (точная текстура, освещение, положение листа), которые по своей природе непредсказуемы. Работая с абстрактными встраиваниями, JEPA может захватить "мяч упадет со стола", не нужно галлюцинировать каждую секунду его падения. V-JEPA 2 — это самый ясный крупномасштабный доказательный пункт на данный момент. Это модель с 1,2 миллиарда параметров, предварительно обученная на более чем 1 миллионе часов видео через самообученное замаскированное предсказание — без меток, без текста. Второй этап обучения — это то, где становится интересно: всего 62 часа данных о роботах из набора данных DROID достаточно, чтобы создать модель мира, основанную на действиях, которая поддерживает нулевое планирование. Робот генерирует кандидатные последовательности действий, прокатывает их через модель мира и выбирает ту, чье предсказанное исходное состояние лучше всего соответствует целевому изображению. Это работает с объектами и средами, которые никогда не видели во время обучения. Эффективность данных — это настоящая техническая заголовка. 62 часа — это почти ничего. Это предполагает, что самообученное предварительное обучение на разнообразном видео может обеспечить достаточно физического предварительного знания, что очень мало специфических данных по области нужно в дальнейшем. Это сильный аргумент в пользу дизайна JEPA — если ваши представления достаточно хороши, вам не нужно с нуля решать каждую задачу. AMI Labs — это усилие ЛеКуна продвинуть это за пределы исследований. Они в первую очередь нацелены на здравоохранение и робототехнику, что имеет смысл, учитывая силу JEPA в физическом рассуждении с ограниченными данными. Но это долгосрочная ставка — их CEO открыто сказал, что коммерческие продукты могут быть еще через несколько лет. --- 2. Пространственный интеллект (3D мировые модели) Представитель: World Labs (@drfeifei) ...