мы наконец-то переходим от распознавания речи к контексту окружающей среды!! стандартные голосовые помощники используют ASR (распознавание речи), который отсекает 90% акустического контекста. то, что демонстрирует OpenHome, вероятно, использует нативные аудио-трансформеры или CLAP (Контрастное языково-аудио предобучение) эмбеддинги для непрерывной обработки сырых аудио-спектрограмм. он обнаруживает акустические события (AED) и паралингвистические сигналы (вздохи, тон), а не просто слова. теперь добавьте постоянно работающую камеру с визуальными трансформерами, и вы только что дали своему агенту глаза, чтобы соответствовать его пространственному слуху. истинная мультимодальная сенсорная фьюжн может сделать ручное управление устаревшим просто что-то, о чем стоит подумать