Hay un artículo de 2025 que muestra que los modelos de emociones del habla mejoran mucho cuando les obligas a explicarse. No solo "el portavoz está enfadado" pero "el hablante está enfadado porque dice X / he detectado el sonido Y / aquí está la prueba" Es casi vergonzosamente simple. Tomas la etiqueta de transcripción y verdad de emoción de base, pides a un LLM que genere una explicación que fundamente la etiqueta en lo que realmente se dijo, y luego usas ESO como señal de supervisión. el entrenamiento en objetivos con razonamiento aumentado en lugar de etiquetas básicas mejoró el reconocimiento emocional en un ~20% (en IEMOCAP y MELD). también prueban datos fuera de dominio (mandarín TV, YouTube en solitario), y el modelo de razonamiento SIGUE generalizándose mejor que emotion2vec+ grande, R1-AQA y audio-reasoner, aunque solo se entrenó en conversaciones diádicas en inglés y episodios de la serie Friends. Un clasificador memoriza una distribución, pero un modelo de razonamiento aprende cómo suenan realmente las emociones. Intuitivo pero aún así un poco salvaje.