@Tsinghua_Uniに関する新しい研究:空間-TTT。 テストタイムトレーニング(TTT)を用いた視覚ベースの空間知能ストリーミングのフレームワーク。Spatial-TTTは高速重みを適応させ、長い映像ストリームから空間証拠を捕捉・整理することで、モデルが時間をかけて構造化された3D空間記憶を構築することを可能にします。 ハイライト: 🔹効率的なストリーミングメモリ。高速ウェイトはコンパクトな空間メモリとして機能し、7000+フレームを超えるサブリニアメモリ成長と40%以上の計算効率を抑えます。 🔹空間予測メカニズム。3D時空間畳み込みを用いたTTTレイヤーは、幾何学的対応と時間的連続性を捉えます。 🔹SOTAは長距離ビデオ空間理解(VSI-Bench)で成果を上げました。 3月13日にはデイリーペーパーズで#1@huggingfaceランクされました。 プロジェクトページ: GitHub: 論文: モデルとデータ: