He estado trasteando con la API de voz de Grok. Agentes de voz en tiempo real sobre WebSocket, llamadas a herramientas y búsqueda web/X integrados, 100+ idiomas. Los agentes pueden hacer esto en medio de una conversación: [risas] [olfatea] [suspiro] [jadeo] [risa burlona] [inhala] [exhala] [risas] [suspiro triste] [risitas] [risa nerviosa] [risa falsa] [risa incómoda] [exclamación] [susurro] [pausa] Hay una [risa falsa] y una [risa incómoda]. Cinco voces, baja latencia, lista para telefonía.