Ich habe mit der Grok Voice API herumgespielt. Echtzeit-Sprachagenten über WebSocket, Tool-Calling und Web/X-Suche integriert, 100+ Sprachen. Agenten können dies mitten im Gespräch tun: [laugh] [sniff] [sigh] [gasp] [teasing-laugh] [inhale] [exhale] [chuckle] [sad-sigh] [giggle] [nervous-chuckle] [fake-laugh] [awkward-laugh] [exclaim] [whisper] [pause] Es gibt ein [fake-laugh] und ein [awkward-laugh]. Fünf Stimmen, niedrige Latenz, telephony-ready.