Áudio conversacional não é apenas mais dados de voz. Tem uma estrutura completamente diferente: • Turno • Alto-falantes sobrepostos • Lacunas de silêncio • Interrupções • Ritmo variável Muitos pipelines de avaliação ASR foram projetados para áudio limpo em alto-falante único.