Nova pesquisa com @Tsinghua_Uni: Spatial-TTT. Uma estrutura para transmitir inteligência espacial baseada em visual com treinamento em tempo de teste (TTT). O Spatial-TTT adapta pesos rápidos para capturar e organizar evidências espaciais de longos fluxos de vídeo, permitindo que modelos construam memória espacial 3D estruturada ao longo do tempo. Destaques: 🔹Memória eficiente para streaming. Pesos rápidos atuam como memória espacial compacta, com crescimento sublinear de memória ao longo de 7000+ quadros e mais de 40% menos de computação. 🔹Mecanismo preditivo espacial. Camadas TTT com convolução espaço-temporal 3D capturam correspondência geométrica e continuidade temporal. 🔹Resultados do SOTA sobre compreensão espacial de vídeo de longo horizonte (VSI-Bench). O jornal ficou em #1 no @huggingface Daily Papers em 13 de março. Página do projeto: GitHub: Papel: Modelo & Dados: