¡Finalmente estamos pasando de la conversión de voz a texto a la conversión de entorno a contexto!! Los asistentes de voz estándar utilizan un pipeline de ASR (reconocimiento de voz) que elimina el 90% del contexto acústico. Lo que OpenHome está mostrando probablemente utiliza transformadores de audio nativos o embeddings de CLAP (Preentrenamiento Contrastivo de Lenguaje-Audio) para procesar espectrogramas de audio en bruto de manera continua. Detecta Eventos Acústicos (AED) y señales paralingüísticas (suspiros, tono) en lugar de solo palabras. Ahora, incorpora un feed de cámara siempre activo con transformadores visuales, y le has dado a tu agente ojos para igualar su audición espacial. La verdadera fusión de sensores multimodal puede hacer que la solicitud manual sea obsoleta. Solo algo en lo que pensar.