Могут ли роботы овладеть сложной манипуляцией, практикуясь в своих собственных видео, сгенерированных ИИ? Исследователи из Стэнфорда и Цинхуа представляют VLAW, новую структуру, разработанную для повышения обучения роботов через непрерывный цикл обратной связи. Метод использует стратегию совместного улучшения: данные реального мира используются для того, чтобы сделать видеосимулятор более реалистичным, что затем генерирует качественные синтетические данные для тренировки мозга робота. Это решает общую проблему, когда симуляторы не могут захватить мелкие, критически важные физические детали, необходимые для сложных задач. В реальных экспериментах VLAW достигла 39,2% абсолютного улучшения коэффициента успеха по сравнению с базовой политикой, значительно превосходя стандартные модели, эффективно сокращая разрыв между симуляцией и реальностью. VLAW: Итеративное совместное улучшение политики «Зрение-Язык-Действие» и модели мира Статья: Код: Наш отчет: