Existuje studie z roku 2025, která ukazuje, že modely řečových emocí se výrazně zlepšují, když je donutíte se vysvětlit. Nejen "Mluvčí je naštvaný" ale "mluvčí je naštvaný, protože říká, že X / zachytil jsem zvuk Y / tady je důkaz" Je to téměř trapně jednoduché. vezmete přepis a označení Ground Truth emoce, vyzvete LLM, aby vytvořil vysvětlení, které označí označení na tom, co bylo skutečně řečeno, a pak použijete TO jako signál pro supervizi. trénink na cílech s rozšířenými rozumem místo holých štítků zlepšil rozpoznávání emocí o ~20 % (napříč IEMOCAP a MELD). testují také na datech mimo doménu (mandarínská TV, jednotný YouTube) a model uvažování STÁLE zobecňuje lépe než emotion2vec+ large, R1-AQA a audio-reasoner, i když byl trénován pouze na anglických dyadických konverzacích a epizodách televizního seriálu Přátelé. Klasifikátor si zapamatuje rozdělení, ale model uvažování se učí, jak emoce skutečně zní. Intuitivní, ale pořád trochu divoké.