所以有一篇2025年的论文显示,当你强迫语音情感模型自我解释时,它们的表现会大大提升。 不仅仅是“说话者生气”, 而是“说话者生气是因为他们说了X / 我检测到了声音Y / 这是证据”。 这几乎是令人尴尬的简单。你拿到转录文本和真实情感标签,提示一个LLM生成一个解释,将标签与实际说过的内容联系起来,然后用那个作为监督信号。基于推理增强目标而不是单纯标签的训练使情感识别提高了约20%(在IEMOCAP和MELD上)。 他们还在域外数据(普通话电视、Singlish YouTube)上进行了测试,推理模型仍然比emotion2vec+ large、R1-AQA和audio-reasoner更具泛化能力,尽管它只是在英语双人对话和《老友记》电视节目集上进行训练的。 分类器记住的是一个分布,但推理模型学习的是情感实际听起来的样子。 直观但仍然有点疯狂。