与@Tsinghua_Uni的新研究:Spatial-TTT。 一个用于流式视觉空间智能的框架,采用测试时训练(TTT)。Spatial-TTT快速调整权重,以捕捉和组织来自长视频流的空间证据,使模型能够随着时间的推移构建结构化的3D空间记忆。 亮点: 🔹高效的流式记忆。快速权重作为紧凑的空间记忆,在7000+帧中实现亚线性内存增长,并且计算量降低超过40%。 🔹空间预测机制。TTT层与3D时空卷积捕捉几何对应关系和时间连续性。 🔹在长时间视频空间理解(VSI-Bench)上取得了SOTA结果。 该论文在3月13日的@huggingface每日论文中排名第1。 项目页面: GitHub: 论文: 模型与数据: