Récemment, @supermemory a atteint 99 % sur LongMemEval. Le problème est que les benchmarks de mémoire ont été créés lorsque les LLM avaient une fenêtre de contexte très petite. Par exemple, LongMemEval_M fait environ 1,5 M de tokens. Ce qui est presque à l'intérieur de la fenêtre de contexte d'Opus 4.6. D'après ce que je comprends, le meilleur benchmark actuel est BEAM avec une fenêtre de contexte de 10 M. Donc, j'évalue tous les nouveaux systèmes de mémoire en fonction de leur score là-bas. Excité de voir comment @supermemory va se classer ! Je suis sûr que ça va bien se passer !