2025 tarihli bir makale var, konuşma duygu modelleri kendilerini açıklamaya zorladığınızda çok daha iyi hale geldiğini gösteriyor. Sadece "konuşmacı öfkeli" değil ama "konuşmacı öfkeleniyor çünkü X diyorlar / Y sesi tespit ettim / işte kanıt" Neredeyse utanç verici derecede basit. Transkript ve gerçek duygu etiketini alırsınız, bir LLM'den etiketi gerçekten söylenene dayanan bir açıklama oluşturmasını istersiniz, sonra BUNU denetim sinyali olarak kullanırsınız. Çıplak etiketler yerine akıl yürütme ile artırılmış hedefler üzerinde eğitim almak, duygu tanıma yeteneğini ~%20 artırdı (IEMOCAP ve MELD büzesinde). Ayrıca alan dışı verilerde (Mandarin TV, Singlish YouTube) test yapıyorlar ve akıl yürütme modeli Hâlâ emotion2vec+ large, R1-AQA ve audio-reasoner'dan daha iyi genelleştiriyor, oysa sadece İngilizce ikili sohbetler ve TV dizisi Friends bölümleri üzerine eğitilmişti. Bir sınıflandırıcı bir dağılımı ezberler, ancak bir akıl yürütme modeli duyguların aslında nasıl duyulduğunu öğrenir. sezgisel ama yine de düşük tonda vahşi.