Новое исследование с @Tsinghua_Uni: Spatial-TTT. Рамочная структура для потокового визуально-ориентированного пространственного интеллекта с обучением во время тестирования (TTT). Spatial-TTT адаптирует быстрые веса для захвата и организации пространственных данных из длинных видеопотоков, позволяя моделям строить структурированную 3D пространственную память со временем. Основные моменты: 🔹Эффективная потоковая память. Быстрые веса действуют как компактная пространственная память с сублинейным ростом памяти на более чем 7000 кадрах и более чем на 40% меньшими вычислениями. 🔹Пространственно-прогностический механизм. Слои TTT с 3D спатиально-временной сверткой захватывают геометрическое соответствие и временную непрерывность. 🔹Результаты SOTA в области пространственного понимания длинных видеопотоков (VSI-Bench). Статья заняла 1-е место в @huggingface Daily Papers 13 марта. Страница проекта: GitHub: Статья: Модель и данные: