ついに音声からテキストから環境からコンテキストへと移行しています!! 標準的な音声アシスタントはASR(音声認識)パイプラインを使用しており、音響的なコンテキストの90%を削ぎ落とします。OpenHomeが示しているものは、おそらくネイティブオーディオトランスフォーマーやCLAP(Contrastive Language-Audio Pretraining)埋め込みを使って生の音声スペクトログラムを連続的に処理していると考えられます。それは単なる言葉ではなく、音響イベント(AED)や副言語的な手がかり(ため息、トーン)を検出します。 次に、常にオンのカメラ映像とビジュアルトランスフォーマーを取り入れ、エージェントに空間聴覚に合わせて目を割り当てるだけです。 真のマルチモーダルセンサー融合は手動プロンプトを不要にするかもしれません ちょっと考えてみてほしいことだ