He estado experimentando con la API de Grok Voice. Agentes de voz en tiempo real a través de WebSocket, llamadas de herramientas y búsqueda web/X integradas, más de 100 idiomas. Los agentes pueden hacer esto en medio de la conversación: [risa] [snif] [suspiro] [jadeo] [risa-burlona] [inhalar] [exhalar] [risita] [suspiro-triste] [risita] [risita-nerviosa] [risa-falsa] [risa-torpe] [exclamar] [susurrar] [pausa] Hay una [risa-falsa] y una [risa-torpe]. Cinco voces, baja latencia, listo para telefonía.