Recientemente @supermemory alcanzado un 99% en LongMemEval. El problema es que los benchmarks de memoria se crearon cuando los LLMs tenían una ventana de contexto muy pequeña. Por ejemplo, LongMemEval_M son ~1,5 millones de tokens. Que es casi dentro de la ventana de contexto del Opus 4.6. Por lo que entiendo, el mejor benchmark actual es BEAM con una ventana de contexto de 10M. Así que estoy evaluando todos los sistemas de memoria nuevos basándome en su puntuación ahí. ¡Estoy emocionado por ver cómo @supermemory puntuará! ¡Estoy seguro de que le irá bien!