2025年の論文で、音声感情モデルは説明を強制することではるかに良くなると示されています。 単に「話者が怒っている」というだけではありません。 しかし「話者はXと言ったから怒っている/音Yを検出した/これが証拠だ」と言う。 ほとんど恥ずかしいほどシンプルです。トランスクリプトとGround truthの感情ラベルを取り、LLMに説明を生成させ、そのラベルを実際に言われたことに基づいて示し、それを監督信号として使います。推論強化ターゲットでのトレーニングは、IEMOCAPおよびMELD全体で約20%の感情認識を向上させました。 また、ドメイン外のデータ(中国語TV、YouTube)でもテストし、推論モデルは英語の二語会話やテレビ番組『フレンズ』のエピソードでしか訓練されていなくても、emotion2vec+のlarge、R1-AQA、オーディオ推論器よりも依然として優れています。 分類器は分布を記憶しますが、推論モデルは感情が実際にどのように聞こえるかを学びます。 直感的だけど、やはり控えめにワイルドな感じです。