一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

所以有一篇2025年的論文顯示，當你強迫語音情感模型解釋自己時，它們的表現會變得更好。不僅僅是「說話者生氣」，而是「說話者生氣是因為他們說了X / 我檢測到聲音Y / 這是證據」這幾乎是令人尷尬的簡單。你拿到文字稿和真實情感標籤，提示一個LLM生成一個解釋，將標籤與實際所說的內容聯繫起來，然後用那個作為監督信號。基於推理增強目標的訓練，而不是單純的標籤，情感識別提高了約20%（在IEMOCAP和MELD上）。他們還在域外數據（普通話電視、Singlish YouTube）上進行測試，而推理模型仍然比emotion2vec+大型、R1-AQA和音頻推理器更具泛化能力，即使它僅在英語雙人對話和《老友記》電視節目的集數上進行訓練。分類器記住一個分佈，但推理模型學會了情感實際上聽起來是什麼樣子。直觀但仍然低調地驚人。