與@Tsinghua_Uni的新研究:Spatial-TTT。 一個用於流式視覺基礎空間智能的框架,具有測試時訓練(TTT)。Spatial-TTT快速調整權重,以捕捉和組織來自長視頻流的空間證據,使模型能夠隨著時間的推移建立結構化的3D空間記憶。 重點: 🔹高效的流式記憶。快速權重作為緊湊的空間記憶,在7000幀以上的情況下,記憶增長為次線性,計算量降低超過40%。 🔹空間預測機制。TTT層與3D時空卷積捕捉幾何對應和時間連續性。 🔹在長期視頻空間理解(VSI-Bench)上取得SOTA結果。 該論文在3月13日的@huggingface每日論文中排名第1。 項目頁面: GitHub: 論文: 模型與數據: