热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
所以有一篇2025年的论文显示,当你强迫语音情感模型自我解释时,它们的表现会大大提升。
不仅仅是“说话者生气”,
而是“说话者生气是因为他们说了X / 我检测到了声音Y / 这是证据”。
这几乎是令人尴尬的简单。你拿到转录文本和真实情感标签,提示一个LLM生成一个解释,将标签与实际说过的内容联系起来,然后用那个作为监督信号。基于推理增强目标而不是单纯标签的训练使情感识别提高了约20%(在IEMOCAP和MELD上)。
他们还在域外数据(普通话电视、Singlish YouTube)上进行了测试,推理模型仍然比emotion2vec+ large、R1-AQA和audio-reasoner更具泛化能力,尽管它只是在英语双人对话和《老友记》电视节目集上进行训练的。
分类器记住的是一个分布,但推理模型学习的是情感实际听起来的样子。
直观但仍然有点疯狂。

热门
排行
收藏
