DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

¡Finalmente estamos pasando de la conversión de voz a texto a la conversión de entorno a contexto!! Los asistentes de voz estándar utilizan un pipeline de ASR (reconocimiento de voz) que elimina el 90% del contexto acústico. Lo que OpenHome está mostrando probablemente utiliza transformadores de audio nativos o embeddings de CLAP (Preentrenamiento Contrastivo de Lenguaje-Audio) para procesar espectrogramas de audio en bruto de manera continua. Detecta Eventos Acústicos (AED) y señales paralingüísticas (suspiros, tono) en lugar de solo palabras. Ahora, incorpora un feed de cámara siempre activo con transformadores visuales, y le has dado a tu agente ojos para igualar su audición espacial. La verdadera fusión de sensores multimodal puede hacer que la solicitud manual sea obsoleta. Solo algo en lo que pensar.

Parte superior

Clasificación

Favoritos