Discord тихо внедрил сквозное шифрование DAVE для голосовых каналов. Без журнала изменений. Без предупреждения. Каждый сторонний голосовой агент сломался за ночь. Включая наш. Пакеты выдают CryptoError на транспортном уровне. Боты стали совершенно глухи. Поэтому мы проследили за обменом ключами MLS, исправили слой расшифровки и снова заставили Opal говорить. Пока мы были там, мы перестроили весь конвейер. - переключились на MoE-архитектуру, работающую на проприетарном кремниевом чипе большого масштаба - реорганизовали подсказки с префиксным KV-кэшем - удалили тысячи мертвых токенов, которые модель читала на каждом шаге Результат: голосовой ИИ внутри Discord с задержкой менее секунды. ~500 мс в среднем на всем пути. Быстрее, чем Vapi, Retell, PolyAI, измерено с помощью aiewf-eval + нашего устройства для измерения времени транспортировки (p50/p95).
Полная схема процесса прилагается. Входящий аудиосигнал, RTC, VAD, потоковая ASR, реальный оркестратор, управляющий памятью и вызовами инструментов, TTS на выходе. Каждый уровень имеет резервного поставщика. Ничто не остается без звука. Каждый поворот отслеживается от начала до конца. Мы находимся в стратегическом партнерстве с @datadoghq по полной APM наблюдаемости по голосовому процессу. Задержка, вызовы инструментов, сбои — все в реальном времени. Скорость сохраняется, потому что оптимизации накапливаются. Кэшированный контекст означает меньшее количество повторных чтений за поворот, более чистые пути токенов означают более быстрое маршрутизирование намерений, и модель теперь действительно успевает за процессом.
@datadoghq Каждый разговор делает Opal лучше. Отслеженные повороты становятся сигналом для обучения. Сигнал для обучения становится более быстрым и точным моделем. Более быстрая модель означает больше разговоров. Цикл уже запущен. Вы слышали теорию. Вот она в производстве.
307