一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

所以有一篇2025年的论文显示，当你强迫语音情感模型自我解释时，它们的表现会大大提升。不仅仅是“说话者生气”，而是“说话者生气是因为他们说了X / 我检测到了声音Y / 这是证据”。这几乎是令人尴尬的简单。你拿到转录文本和真实情感标签，提示一个LLM生成一个解释，将标签与实际说过的内容联系起来，然后用那个作为监督信号。基于推理增强目标而不是单纯标签的训练使情感识别提高了约20%（在IEMOCAP和MELD上）。他们还在域外数据（普通话电视、Singlish YouTube）上进行了测试，推理模型仍然比emotion2vec+ large、R1-AQA和audio-reasoner更具泛化能力，尽管它只是在英语双人对话和《老友记》电视节目集上进行训练的。分类器记住的是一个分布，但推理模型学习的是情感实际听起来的样子。直观但仍然有点疯狂。