Nueva investigación con @Tsinghua_Uni: Spatial-TTT. Un marco para transmitir inteligencia espacial basada en la visualización con entrenamiento en tiempo de prueba (TTT). Spatial-TTT adapta pesos rápidos para capturar y organizar evidencia espacial de largos flujos de vídeo, permitiendo a los modelos construir una memoria espacial 3D estructurada a lo largo del tiempo. Aspectos destacados: 🔹Memoria eficiente en streaming. Los pesos rápidos actúan como memoria espacial compacta, con un crecimiento sublineal de la memoria sobre 7000+ fotogramas y más de un 40% menos de cálculo. 🔹Mecanismo predictivo espacial. Las capas TTT con convolución espaciotemporal 3D capturan la correspondencia geométrica y la continuidad temporal. 🔹Resultados de SOTA sobre la comprensión espacial de vídeo de largo horizonte (VSI-Bench). El periódico ocupó el puesto #1 en @huggingface Daily Papers el 13 de marzo. Página del proyecto: GitHub: Papel: Modelo y datos: