Нещодавно @supermemory отримав 99% на LongMemEval. Проблема в тому, що бенчмарки пам'яті створювалися, коли LLM мали дуже маленьке контекстне вікно. Наприклад LongMemEval_M — це ~1,5 млн токенів. Це майже всередині контекстного вікна Opus 4.6. З того, що я розумію, наразі найкращий бенчмарк — це BEAM з контекстним вікном 10M. Тож я оцінюю всі нові системи пам'яті на основі їхнього балу. З нетерпінням чекаю, які результати @supermemory! Я впевнений, що все буде добре!