Jak agent głosowy może rozpoznać, kiedy go rzeczywiście przerywasz?
VAD jest zbyt wrażliwy—śmiechy, „mm-hmm” lub kichnięcie nie powinny zatrzymywać agenta.
Wytrenujemy model audio do adaptacyjnego zarządzania przerwami, aby agenci mogli odróżniać prawdziwe przerwy od hałasu.
API Text to Speech Grok jest teraz dostępne w LiveKit Inference.
Naturalne, ekspresyjne głosy z niską latencją. Wiele języków w ponad 20 językach. Gotowe do użycia w telekomunikacji i produkcji od razu.
Jedno klucz API. Brak dodatkowej konfiguracji.
→
LiveKit obchodzi dzisiaj 5. urodziny.
To, co zaczęło się jako projekt open source, teraz wspiera ponad 300 tys. deweloperów, ponad 5 tys. klientów i miliardy połączeń w zakresie głosu, wideo i fizycznych agentów AI.
Następnie: budowanie infrastruktury dla obliczeń opartych na głosie.
Dziękujemy naszej społeczności za 5 niesamowitych lat.