熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
所以有一篇2025年的論文顯示,當你強迫語音情感模型解釋自己時,它們的表現會變得更好。
不僅僅是「說話者生氣」,而是「說話者生氣是因為他們說了X / 我檢測到聲音Y / 這是證據」
這幾乎是令人尷尬的簡單。你拿到文字稿和真實情感標籤,提示一個LLM生成一個解釋,將標籤與實際所說的內容聯繫起來,然後用那個作為監督信號。基於推理增強目標的訓練,而不是單純的標籤,情感識別提高了約20%(在IEMOCAP和MELD上)。
他們還在域外數據(普通話電視、Singlish YouTube)上進行測試,而推理模型仍然比emotion2vec+大型、R1-AQA和音頻推理器更具泛化能力,即使它僅在英語雙人對話和《老友記》電視節目的集數上進行訓練。
分類器記住一個分佈,但推理模型學會了情感實際上聽起來是什麼樣子。
直觀但仍然低調地驚人。

熱門
排行
收藏
