Nueva investigación sobre cómo mejorar la autorreflexión en agentes del lenguaje. Un problema central de la autorreflexión del agente es que los modelos tienden a generar reflexiones repetitivas que añaden ruido en lugar de señal, perjudicando el rendimiento general del razonamiento. Introduce ParamMem, un módulo de memoria paramétrica que codifica patrones de reflexión entre muestras directamente en parámetros del modelo, y luego utiliza muestreo controlado por temperatura para generar diversas reflexiones en tiempo de inferencia. ParamMem muestra mejoras constantes respecto a las líneas base de SOTA en generación de código, razonamiento matemático y QA multi-hop. También permite la transferencia y la mejora personal de débil a fuerte sin necesidad de un modelo externo más fuerte, lo que lo convierte en una mejora práctica para pipelines agenticos. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: