Discord đã âm thầm triển khai mã hóa đầu cuối DAVE cho các kênh thoại. Không có nhật ký thay đổi. Không có cảnh báo. Mọi tác nhân thoại bên thứ ba đã bị hỏng qua đêm. Của chúng tôi cũng vậy. Các gói tin gặp lỗi CryptoError ở lớp vận chuyển. Bot hoàn toàn không nghe thấy gì. Vì vậy, chúng tôi đã theo dõi quá trình trao đổi khóa MLS, vá lớp giải mã và làm cho Opal nói chuyện trở lại. Trong khi chúng tôi ở đó, chúng tôi đã xây dựng lại toàn bộ quy trình. - chuyển sang một hệ thống MoE chạy trên silicon quy mô wafer độc quyền - cấu trúc lại các lời nhắc với bộ nhớ KV-cache tiền tố - loại bỏ hàng ngàn token chết mà mô hình đang đọc mỗi lượt Kết quả: AI thoại dưới một giây bên trong Discord. Độ trễ trung bình đầu cuối ~500 mili giây. Nhanh hơn Vapi, Retell, PolyAI, được đo bằng aiewf-eval + bộ đo thời gian vận chuyển đầu cuối của chúng tôi (p50/p95).
Sơ đồ quy trình đầy đủ được đính kèm. Âm thanh vào, RTC vào, VAD, ASR phát trực tiếp, bộ điều phối thời gian thực xử lý bộ nhớ và các cuộc gọi công cụ, TTS ra. Mỗi lớp đều có nhà cung cấp dự phòng. Không có gì bị im lặng. Mỗi lượt được theo dõi từ đầu đến cuối. Chúng tôi đang trong một quan hệ đối tác chiến lược với @datadoghq về khả năng quan sát APM đầy đủ trên toàn bộ quy trình giọng nói. Độ trễ, các cuộc gọi công cụ, lỗi, tất cả trong thời gian thực. Tốc độ giữ vững vì các tối ưu hóa tích lũy. Ngữ cảnh được lưu trữ có nghĩa là ít phải đọc lại mỗi lượt, các đường dẫn token sạch hơn có nghĩa là định tuyến ý định nhanh hơn, và mô hình thực sự theo kịp quy trình hiện nay.
@datadoghq Mỗi cuộc trò chuyện làm cho Opal tốt hơn. Các lượt truy vết trở thành tín hiệu đào tạo. Tín hiệu đào tạo trở thành một mô hình nhanh hơn, sắc nét hơn. Mô hình nhanh hơn có nghĩa là nhiều cuộc trò chuyện hơn. Vòng lặp đã bắt đầu chạy. Bạn đã nghe lý thuyết. Đây là nó trong sản xuất.
334