所以有一篇2025年的論文顯示,當你強迫語音情感模型解釋自己時,它們的表現會變得更好。 不僅僅是「說話者生氣」,而是「說話者生氣是因為他們說了X / 我檢測到聲音Y / 這是證據」 這幾乎是令人尷尬的簡單。你拿到文字稿和真實情感標籤,提示一個LLM生成一個解釋,將標籤與實際所說的內容聯繫起來,然後用那個作為監督信號。基於推理增強目標的訓練,而不是單純的標籤,情感識別提高了約20%(在IEMOCAP和MELD上)。 他們還在域外數據(普通話電視、Singlish YouTube)上進行測試,而推理模型仍然比emotion2vec+大型、R1-AQA和音頻推理器更具泛化能力,即使它僅在英語雙人對話和《老友記》電視節目的集數上進行訓練。 分類器記住一個分佈,但推理模型學會了情感實際上聽起來是什麼樣子。 直觀但仍然低調地驚人。