J'ai joué avec l'API Grok Voice. Agents vocaux en temps réel via WebSocket, appel d'outils et recherche web/X intégrés, 100+ langues. Les agents peuvent faire cela en pleine conversation : [laugh] [sniff] [sigh] [gasp] [teasing-laugh] [inhale] [exhale] [chuckle] [sad-sigh] [giggle] [nervous-chuckle] [fake-laugh] [awkward-laugh] [exclaim] [whisper] [pause] Il y a un [fake-laugh] et un [awkward-laugh]. Cinq voix, faible latence, prêt pour la téléphonie.