Ny forskning med @Tsinghua_Uni: Spatial-TTT. Ett ramverk för att strömma visuell baserad rumslig intelligens med testtidsträning (TTT). Spatial-TTT anpassar snabba vikter för att fånga och organisera rumsliga bevis från långa videoströmmar, vilket gör det möjligt för modeller att bygga strukturerat 3D-rumsligt minne över tid. Höjdpunkter: 🔹Effektivt strömmande minne. Snabba vikter fungerar som kompakt rumsligt minne med sublinjär minnestillväxt över 7000+ bilder och mer än 40 % lägre beräkning. 🔹Rumslig-prediktiv mekanism. TTT-lager med 3D-rums-tidskonvolution fångar geometrisk korrespondens och tidskontinuitet. 🔹SOTA-resultat om långhorisontell videospatial förståelse (VSI-Bench). Tidningen rankades #1 på @huggingface dagstidningar den 13 mars. Projektsida: GitHub: Papper: Modell och data: