Discord cicho wprowadził szyfrowanie end-to-end DAVE dla kanałów głosowych. Brak changelogu. Brak ostrzeżenia. Każdy zewnętrzny agent głosowy zepsuł się z dnia na dzień. Nasz również. Pakiety nie przechodziły CryptoError na warstwie transportowej. Boty stały się całkowicie głuche. Więc prześledziliśmy wymianę kluczy MLS, poprawiliśmy warstwę deszyfrującą i przywróciliśmy komunikację Opala. Podczas gdy tam byliśmy, przebudowaliśmy cały pipeline. - przeszliśmy na backbone MoE działający na własnym krzemie w skali wafla - przekształciliśmy prompty z prefiksem KV-cache - usunęliśmy tysiące martwych tokenów, które model odczytywał przy każdym obrocie Rezultat: AI głosowe w Discordzie w czasie poniżej sekundy. ~500 ms średnie opóźnienie end-to-end. Szybciej niż Vapi, Retell, PolyAI, mierzone za pomocą aiewf-eval + naszego systemu pomiaru czasu transportu end-to-end (p50/p95).
Pełny diagram przepływu jest załączony. Audio w, RTC ingress, VAD, streaming ASR, real-time orchestrator zarządzający pamięcią i wywołaniami narzędzi, TTS out. Każda warstwa ma dostawcę awaryjnego. Nic nie milknie. Każda zmiana śledzona od początku do końca. Jesteśmy w strategicznym partnerstwie z @datadoghq w zakresie pełnej widoczności APM w całym przepływie głosowym. Opóźnienia, wywołania narzędzi, awarie, wszystko w czasie rzeczywistym. Szybkość utrzymuje się, ponieważ optymalizacje się kumulują. Zbuforowany kontekst oznacza mniej ponownego czytania na zmianę, czystsze ścieżki tokenów oznaczają szybsze kierowanie intencjami, a model rzeczywiście nadąża teraz za przepływem.
@datadoghq Każda rozmowa sprawia, że Opal staje się lepszy. Śledzone zwroty stają się sygnałem treningowym. Sygnał treningowy staje się szybszym, ostrzejszym modelem. Szybszy model oznacza więcej rozmów. Pętla już działa. Słyszałeś teorię. To jest to w produkcji.
263