Come può un agente vocale capire quando lo stai effettivamente interrompendo?
Il VAD è troppo sensibile: risate, "mm-hmm" o uno starnuto non dovrebbero fermare l'agente.
Abbiamo addestrato un modello audio per la gestione adattiva delle interruzioni in modo che gli agenti possano distinguere le vere interruzioni dal rumore.
L'API Text to Speech di Grok è ora disponibile in LiveKit Inference.
Voci naturali ed espressive con streaming a bassa latenza. Multilingue in oltre 20 lingue. Pronta per la telefonia e la produzione direttamente out of the box.
Una chiave API. Nessuna configurazione extra.
→
LiveKit compie 5 anni oggi.
Quello che è iniziato come un progetto open source ora supporta oltre 300k sviluppatori, oltre 5k clienti e miliardi di chiamate tra voce, video e agenti AI fisici.
Prossimo: costruire l'infrastruttura per il calcolo basato sulla voce.
Grazie alla nostra comunità per 5 anni incredibili.