Wie kann ein Sprachagent erkennen, wann Sie ihn tatsächlich unterbrechen?
VAD ist zu empfindlich – Lachen, „mm-hmm“ oder ein Niesen sollten den Agenten nicht stoppen.
Wir haben ein Audiomodell für die adaptive Unterbrechungsbehandlung trainiert, damit Agenten echte Unterbrechungen von Geräuschen unterscheiden können.
Grok's Text-to-Speech-API ist jetzt in LiveKit Inference verfügbar.
Natürliche, ausdrucksstarke Stimmen mit latenzarmer Übertragung. Mehrsprachig in über 20 Sprachen. Telefonie- und produktionsbereit direkt nach dem Auspacken.
Ein API-Schlüssel. Keine zusätzliche Einrichtung.
→
Die Text-zu-Sprache-API von Grok ist jetzt verfügbar.
Beginnen Sie mit dem Erstellen von Anwendungen mit natürlichen Stimmen und ausdrucksvollen Steuerungen, um Ihre Apps zum Leben zu erwecken.
LiveKit wird heute 5 Jahre alt.
Was als Open-Source-Projekt begann, unterstützt jetzt über 300.000 Entwickler, über 5.000 Kunden und Milliarden von Anrufen über Sprache, Video und physische KI-Agenten.
Als Nächstes: den Aufbau der Infrastruktur für sprachgesteuertes Rechnen.
Danke an unsere Community für 5 unglaubliche Jahre.