Tenho mexido na API de voz do Grok. Agentes de voz em tempo real via WebSocket, chamadas de ferramentas e busca web/X integrados, 100+ idiomas. Os agentes podem fazer isso no meio da conversa: [risos] [cheira] [suspiro] [ofegos] [risada provocativa] [inspira] [expira] [risos] [suspiro triste] [risadinhas] [risada nervosa] [risada falsa] [risada constrangedora] [exclamação] [sussurro] [pausa] Tem uma [risada falsa] e uma [risada-constrangedora]. Cinco vozes, baixa latência, pronto para telefonia.