音声データを収集する多くのチームは、品質よりも音量を優先して最適化していますが、その一因は品質の測定が間違っているからです。 品質評価のためにポセイドンスコアを作成しました。適用すると、シングルスピーカーの音声は高評価でしたが、マルチスピーカーの会話は低評価でした。 なぜでしょうか?↓