كيف يمكن لوكيل الصوت أن يعرف متى تقاطعه فعليا؟
VAD حساس جدا—يضحك، "مم-هم"، أو العطسة لا يجب أن توقف الوكيل.
قمنا بتدريب نموذج صوتي للتعامل التكيفي مع الانقطاعات حتى يتمكن الوكلاء من التمييز بين الانقطاعات الحقيقية والضوضاء.
واجهة برمجة تطبيقات تحويل النص إلى كلام من Grok متاحة الآن في LiveKit Inference.
أصوات طبيعية ومعبرة مع بث منخفض التأخير. متعدد اللغات في 20+ لغة. هاتفيا وجاهز للإنتاج جاهزا من العلبة.
مفتاح API واحد. لا يوجد إعداد إضافي.
→
LiveKit يحتفل بخمس سنوات اليوم.
ما بدأ كمشروع مفتوح المصدر، أصبح الآن يمد 300 ألف مطور، و5 آلاف + عميل، ومليارات المكالمات عبر وكلاء الصوت والفيديو والذكاء الاصطناعي المادي.
التالي: بناء البنية التحتية للحوسبة المعتمدة على الصوت.
شكرا لمجتمعنا على خمس سنوات مذهلة.