hay un artículo de 2025 que muestra que los modelos de emoción en el habla mejoran mucho cuando se les obliga a explicarse a sí mismos. no solo "el hablante está enojado" sino "el hablante está enojado porque dice X / detecté el sonido Y / aquí está la evidencia" es casi vergonzosamente simple. tomas la transcripción y la etiqueta de emoción de verdad, pides a un LLM que genere una explicación que fundamente la etiqueta en lo que realmente se dijo, y luego usas ESO como la señal de supervisión. entrenar con objetivos aumentados por razonamiento en lugar de etiquetas simples mejoró el reconocimiento de emociones en ~20% (en IEMOCAP y MELD). también prueban con datos fuera de dominio (televisión en mandarín, youtube en singlish), y el modelo de razonamiento AÚN generaliza mejor que emotion2vec+ large, R1-AQA y audio-reasoner, a pesar de que solo fue entrenado en conversaciones diádicas en inglés y episodios de la serie de televisión Friends. un clasificador memoriza una distribución, pero un modelo de razonamiento aprende cómo suenan realmente las emociones. intuitivo pero aún así un poco salvaje.