Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
nous passons enfin de la reconnaissance vocale à l'environnement au contexte !!
les assistants vocaux standard utilisent un pipeline ASR (reconnaissance vocale) qui élimine 90 % du contexte acoustique. ce que montre OpenHome utilise probablement des transformateurs audio natifs ou des embeddings CLAP (Contrastive Language-Audio Pretraining) pour traiter en continu des spectrogrammes audio bruts. il détecte les événements acoustiques (AED) et les indices paralinguistiques (soupirs, ton) au lieu de se limiter aux mots.
maintenant, incorporez un flux de caméra toujours actif avec des transformateurs visuels, et vous venez de donner à votre agent des yeux pour correspondre à son audition spatiale.
la véritable fusion de capteurs multimodaux pourrait rendre le déclenchement manuel obsolète
juste quelque chose à méditer
Meilleurs
Classement
Favoris
