Недавно @supermemory достиг 99% на LongMemEval. Проблема в том, что бенчмарки памяти были созданы, когда LLM имели очень маленькое окно контекста. Например, LongMemEval_M составляет ~1,5M токенов. Что почти укладывается в окно контекста Opus 4.6. Насколько я понимаю, текущий лучший бенчмарк — это BEAM с окном контекста 10M. Поэтому я оцениваю все новые системы памяти на основе их результатов там. С нетерпением жду, как @supermemory покажет себя! Я уверен, что у него все получится!