DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

nous passons enfin de la reconnaissance vocale à l'environnement au contexte !! les assistants vocaux standard utilisent un pipeline ASR (reconnaissance vocale) qui élimine 90 % du contexte acoustique. ce que montre OpenHome utilise probablement des transformateurs audio natifs ou des embeddings CLAP (Contrastive Language-Audio Pretraining) pour traiter en continu des spectrogrammes audio bruts. il détecte les événements acoustiques (AED) et les indices paralinguistiques (soupirs, ton) au lieu de se limiter aux mots. maintenant, incorporez un flux de caméra toujours actif avec des transformateurs visuels, et vous venez de donner à votre agent des yeux pour correspondre à son audition spatiale. la véritable fusion de capteurs multimodaux pourrait rendre le déclenchement manuel obsolète juste quelque chose à méditer

Meilleurs

Classement

Favoris