O Discord lançou silenciosamente a criptografia de ponta a ponta DAVE para canais de voz. Sem changelog. Sem aviso. Todos os agentes de voz de terceiros pararam de funcionar da noite para o dia. O nosso incluído. Pacotes falhando CryptoError na camada de transporte. Bots ficaram completamente surdos. Então rastreamos a troca de chaves MLS, corrigimos a camada de decriptação e fizemos o Opal voltar a falar. Enquanto estávamos lá, reconstruímos todo o pipeline. - trocamos para uma infraestrutura MoE rodando em silício proprietário em escala de wafer - reestruturamos os prompts com cache KV de prefixo - removemos milhares de tokens mortos que o modelo estava lendo a cada turno Resultado: IA de voz em menos de um segundo dentro do Discord. Latência média de ~500 milissegundos de ponta a ponta. Mais rápido que Vapi, Retell, PolyAI, medido com aiewf-eval + nosso sistema de cronometragem de transporte de ponta a ponta (p50/p95).
O diagrama completo do pipeline está anexado. Áudio de entrada, entrada RTC, VAD, ASR em streaming, orquestrador em tempo real gerenciando memória e chamadas de ferramentas, TTS de saída. Cada camada tem um provedor de fallback. Nada fica em silêncio. Cada interação é rastreada de ponta a ponta. Estamos em uma parceria estratégica com @datadoghq para total observabilidade APM em todo o pipeline de voz. Latência, chamadas de ferramentas, falhas, tudo em tempo real. A velocidade se mantém porque as otimizações se acumulam. O contexto em cache significa menos releitura por interação, caminhos de tokens mais limpos significam roteamento de intenção mais rápido, e o modelo realmente acompanha o pipeline agora.
@datadoghq Cada conversa torna a Opal melhor. As conversões rastreadas tornam-se sinal de treino. O sinal de treino torna-se um modelo mais rápido e afiado. Um modelo mais rápido significa mais conversas. O ciclo já está em funcionamento. Você já ouviu a teoria. Aqui está ela em produção.
265